基因组测序>
建库测序>
人类基因组测序>
动植物基因组测序>
微生物基因组测序>
转录调控测序>
表观组测序>
单细胞测序>
空间转录组>
基因分型>
质谱分析>
蛋白组学分析>
代谢组学分析>
免疫定量>
多组学联合分析>
分子育种>
基因合成>
SNP检测、注释及过滤
SNP(单核苷酸多态性) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。我们采用SAMTOOLS软件进行样本SNP的检测及过滤,获得高质量的SNP。有效的高质量SNP通过以下过滤标准进行过滤:Category | Number of SNPs | |
Upstream | 203,062 | |
Exonic | Stop gain | 2,142 |
Stop loss | 564 | |
Synonymous | 247,194 | |
Non-synonymous | 167,809 | |
Intronic | 321,306 | |
Splicing | 1,471 | |
Downstream | 189,867 | |
upstream/downstream | 51,199 | |
Intergenic | 986,703 | |
ts | 1,256,052 | |
tv | 915,265 | |
ts/tv | 1.372 | |
Total | 2,171,317 |
群体分层分析
获取群体分群信息,降低结果假阳性
1. 系统进化树
系统进化树(phylogenetic tree,又称evolutionary tree,进化树)是描述群体间进化顺序的分支图或树,用来表示群体间的进化关系。根据群体的物理或遗传学特征等方面的共同点或差异可以推断出它们的亲缘关系远近,即群体个体间由于共同祖先而产生的相互关系。2. 群体主成分分析
主成分分析(PCA)是一种纯数学的运算方法,可将多个相关变量经过线形转换选出较少个数的重要变量。PCA方法被广泛运用于多学科,在遗传学中,主要用于聚类分析,它是基于个体基因组SNP差异程度,按照不同性状特征将个体按主成分聚类成不同亚群,同时用于和其它方法做相互验证。连锁不平衡分析
决定关联分析的精度和所标记的数目
全基因组关联分析
找到与目标性状关联的区域
1. 性状关联分析
GWAS分析过程中,个体亲缘关系和群体分层是造成假阳性关联的主要因素。因此,采用混合线性模型进行性状关联分析,群体遗传结构作为固定效应,个体亲缘关系作为随机效应,以校正群体结构和个体亲缘关系的影响。2. 多重假设检验矫正
多重假设检验会导致I型错误扩大和假阳性关联,这是影响GWAS分析可靠性的重要因素。多重假设检验的次数取决于基因组包含SNPs的数量,我们采用Bonferroni校正法来校正GWAS分析中多重假设检验后的P值以降低假阳性的概率。3. 目标性状相关区域基因功能注释
根据连锁不平衡衰减距离分析结果,对显著SNP位点所在物理位置上下游一定区域内(如50 Kb)的相关基因进行功能注释(连锁不平衡衰减距离具有物种特异性,一般自花授粉植物会较大,也与样品群体有关,一般野生群体会较小,栽培品系或选育品系会较大)。构建单体型图谱
利用全基因组范围内高密度的SNPs构建单倍型图谱,可以将关联位点定位到相对应的单倍型上,有利于在关联分析中寻找和定位功能位点。通过图谱可以直接观测显著关联SNP位点之间的LD关系以及候选基因内各SNP位点之间的LD关系,从而更准确地鉴定性状功能位点。Copyright@2011-2024 All Rights Reserved 版权所有:J9九游会 京ICP备15007085号-1