基因组测序>
建库测序>
人类基因组测序>
动植物基因组测序>
微生物基因组测序>
转录调控测序>
表观组测序>
单细胞测序>
空间转录组>
基因分型>
质谱分析>
蛋白组学分析>
代谢组学分析>
免疫定量>
多组学联合分析>
分子育种>
动植物基因组测序>
基因组组装
三代测序组装策略
基因组组装
组装结果评估
1. 序列一致性评估
在为了评估组装的准确性,选取一定量的测序数据与组装基因组比对,统计reads的比对率、覆盖基因组的程度以及深分布情况,由此评估组装的效果。2. GC含量分析
组装的基因序列计算其GC含量和平均深度,根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。3. BUSCO评估
BUSCO(Benchmarking Universal Single-Copy Orthologs:http://busco.ezlab.org/)评估是使用单拷贝直系同源基因库,结合tblastn、augustus 和hmmer 等软件对组装得到的基因组进行评估,以此评估组装基因组的完整性。基因组注释
注释流程
1. 重复序列注释
重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类,分别用de novo 预测和同源预测的方法对基因组进行repeat注释。2. 基因结构注释
基因结构de novo 预测中用于比对的同源物种包括多个物种,可以预测多种元件情况。3. 基因功能注释
将基因结构注释得到的基因集与已知蛋白数据库比对,得到基因的功能信息。常用的蛋白数据库有SwissProt,TrEMBL,KEGG,Go和InterPro”配表如下:Number | Percent(%) | |
---|---|---|
Total | 28355 | - |
InterPro | 18417 | 64.951508 |
KEGG | 18670 | 65.843767 |
Swissprot | 21329 | 75.221301 |
TrEMBL | 22920 | 80.832305 |
GO | 14767 | 52.078998 |
Annotated | 23045 | 81.273144 |
Unanotated | 5310 | 18.726856 |
4. 非编码RNA(ncRNA)注释
非编码RNA,指不翻译蛋白质的RNA,如rRNA、tRNA等,这些RNA都具有重要的生物学功能。通过与已知ncRNA库进行比对得到基因组的ncRNA信息(统计结果如下表)。Type | Copy(w) | Average length(bp) | Total length(bp) | % of genome | |
miRNA | 536 | 139.341417910448 | 74687 | 0.001834 | |
tRNA | 1238 | 75.218901453958 | 93121 | 0.002287 | |
rRNA | rRNA | 6758 | 186.523527670909 | 1260526 | 0.030954 |
18S | 688 | 871.928779069767 | 599887 | 0.014731 | |
28S | 572 | 121.784965034965 | 69661 | 0.001711 | |
5.8S | 275 | 125.298181818182 | 34457 | 0.000846 | |
5S | 5223 | 106.551981619759 | 556521 | 0.013666 | |
snRNA | snRNA | 381 | 118.968503937008 | 45327 | 0.001113 |
CD-box | 99 | 107.060606060606 | 10599 | 0.000260 | |
HACA-box | 19 | 135.631578947368 | 2577 | 0.000063 | |
splicing | 263 | 122.247148288973 | 32151 | 0.000790 |
生物学分析
1. 基因家族分析
基于基因家族聚类的结果,鉴定物种特有的基因或者基因家族;发生显著扩增/收缩的基因家族;重要基因家族深入分析等(下图 左)。2. 系统进化分析
构建物种进化树,在全基因组水平上评估物种间进化关系;探讨整体进化地位和物种起源问题,估算与其他近缘物种之间的分化时间。3. 正选择分析
通过自然选择某些有利的基因被固定下来,受到了正选择的基因,往往在该物种对环境的适应性方面有重要作用,全基因组测序能充分挖掘正选择基因。4. 共线性分析
根据重复基因的进化动态或基因组共线性分析,追溯古老的基因组重复事件;根据染色体共线性关系,追溯染色体进化历史,如重排、融合(下图 右)。生物学分析—个性化分析
全基因组测序完成后不仅可进行常规标准分析,还可针对所研究物种的个性化生物学问题进行分析,针对某一类或特定一个物种的自身特点,结合转录组、重测序信息展开深入分析。如对金丝猴基因组的分析,对其植食性机制进行了深入研究;对于藏猪基因组分析,重点探讨了藏猪基因组中与高原适应性相关基因。这些方面与物种的独特生物学特征息息相关,一些生物学亮点也成为全基因组测序的研究重点。Copyright@2011-2024 All Rights Reserved 版权所有:J9九游会 京ICP备15007085号-1