基于弹性网方法的全基因组关联分析+源代码+答辩PPT(2)

1 研究背景
人类和动植物的复杂性状都是多基因控制的数量性状，存在上位性(基因间的相互作用)以及环境互作(基因在不同环境的特异表达)。关联分析可以在整个基因组上搜索控制数量性状的基因位点(QTL),揭示复杂性状的遗传基础。近年来，技术的进步使得大规模分析由单核苷酸多态性（SNP）标记的基因型成为可能，也促进了对人类疾病的全基因组关联分析（GWAS）。这种分析方法脱胎于Risch和Merikangas早期的发现[1]，他们认为，与同胞连锁分析的方法相比，关联分析的设计更适用于复杂性状基因的检测。
国际上首个GWAS研究与年龄相关性视网膜黄斑变性有关，2005年，它的研究结果发布在了Science杂志上。在此之后，国内外越来越多的团队加入到了GWAS的研究中，发现了与糖尿病、乳腺癌和自闭症等许多重要疾病相关的基因[2]。随后还出现了商用GWAS平台提供的“基因组覆盖”。使用商用基因分型芯片的研究者希望测定足够多的SNP来保证重要位点基因的良好覆盖度，以适用于某个或某类疾病的关联性研究。例如，针对心血管和成瘾性疾病[3]，进行了一定覆盖度的研究，为基因分型芯片开发相应资源。
2009年，我国发表了第一篇GWAS论文，发现了银屑病的易感基因[4]。我国的GWAS研究虽然起步晚，但是发展较快。目前为止，通过GMAS方法，我国学者已经确定了许多疾病发病的易感区域、SNP 变异、相关基因、致病基因，共计发表了约一万篇论文，得出了关于几十种威胁人类健康的常见疾病的主要性状的分析结果。
关联分析定位QTL的基本原理是通过检测标记与性状的关联程度，来判断有无与标记连锁的性状基因或QTL。GWAS中的数据分析策略和步骤主要是这样的：（1）数据清理：数据清理分两个部分，一个部分是针对变量(即SNP)，另一个部分是针对个体(即样品)。在GWAS中，决定基因型的标记很重要。因为SNP的错误率较低，适用于进行高通量基因分型，所以它成为了关联分析标记的合适选择。对于候选基因的研究，通常选取自定义的SNP。用于等位基因SNP位点关联的标签SNP选择方法通常采用连锁不平衡型（LD）。在两个位点的等位基因的共现频率不同于单独分类下的预期时，LD会发生。常用的LD分析方法不需要明确标记从多个SNP得来的单体型。该方法衡量成对的LD（对于基因型数据，通常需要评估两个位点单体型概率）来决定一组标记中，哪些可以根据成对相关性代替未发现标记。（2）关联研究：经过严格的数据清理后，就可以对清理后的数据进行关联性分析。此过程中需要考虑生物学模式与统计学模型的选择、协变量调整和多重比较等问题。（3）验证研究：初期的GWAS是探索性研究，为了验证GWAS的发现，控制假阳性（对于QTL定位来讲，如果一个位置上没有QTL存在，但由于随机误差的影响，这个位置上的lod值可能超过给定的临界值，从而错误的判断这个位置上存在QTL，这样的QTL称为假阳性QTL），常常采用多阶段研究(multistage procedure)，即第一阶段通过GWAS选出少量阳性SNP，在后面的阶段中，在另外一个或几个独立的研究样本中对这些阳性结果进行验证。多阶段研究既能降低研究成本，又能有效控制假阳性结果，提高检验效能。
最近，全基因组关联分析方法的成功，使得涉及关键性生物过程的特定基因备受关注，这种方法也成为确定复杂疾病相关变异的可行且有效的方法。然而，GWAS方法也有其局限性，主要体现在以下三个方面：（1）GWAS只对普遍的等位基因的关联分析具有较好的效能。一旦变量确定，周围的基因或者区域将被进一步研究以寻找额外的不常见的影响疾病表现的变量。然而，为了探知在哪个位点上存在导致疾病发生的不常见的多点变异或等位基因，我们仍然需要依靠传统的连锁分析。（2）关联分析的遗传研究群体一般为自然群体，长期的随机交配会掩盖基因座位间的连锁关系，尽管两个座位间存在遗传上的连锁，但由于群体的连锁不平衡度很低，所以不一定能看到不平衡存在。（3）群体结构导致定位结果假阳性。如果个体是来自于不同遗传结构的亚群，由于群体结构的存在，导致独立遗传基因座位间检测到关联信号，但是两个基因座位间的连锁不平衡来源于群体结构。基于弹性网方法的全基因组关联分析+源代码+答辩PPT(2):http://www.751com.cn/jisuanji/lunwen_37901.html