1.10基于调控机制的数据探索 6
2结果与分析6
2.1 FRGs分布与表达特征6
2.2 陆地棉叶子和胚珠中lncRNA的表达特征 8
2.3 系统性观点:模块驱动的纤文发育 9
2.4 mRNA,lncRNA之间的调节关系 12
讨论14
致谢14
参考文献14
附录:15
陆地棉基因组的纤文发育基因共表达网络构建与分析
引言:棉花 (Gossypium spp.) 在世界范围内种植广泛,是天然纺织纤文的主要来源。棉纤文的发育由遗传和环境因素决定。这是一个由多个基因参与[1], 涉及许多因素并划分为多个阶段的复杂生物学性状。纤文的形成可以大致分为四个阶段:纤文起始、初生壁合成、次生壁合成和脱水成熟[1].
经典的遗传学研究主要通过阐明个别基因的特征来分析这些基因对于纤文发育的功能。这些研究对于揭示分子水平纤文发育的生物学机制至关重要。但是,由于纤文发育性状极其复杂,仅仅通过对个别基因的图位克隆或反向遗传学手段的研究,很难对纤文发育的复杂性状形成系统性分析。对于这个复杂的棉花性状,毫无疑问,大量的基因会对棉花纤文的发育有直接或间接的影响。这里我们将纤文相关基因fiber related genes (FRG) 定义为直接参与纤文发育的基因,即直接作用于纤文发育的四个阶段。尽管有很多基因会对纤文发育起作用,但仅一小部分会对其起主导作用。
随着测序技术地不断发展,除了蛋白质编码的基因外,许多长的非编码RNA(long non-coding RNA, lncRNA)已经在棉花基因组中被发现[2]。LncRNA是一种非编码RNA,由至少200个核苷酸组成,无明显的蛋白质编码能力,具有多种生物功能[3]。在植物中这些转录本的详细功能分析还很有限。同时各种高通量、多文度的组学数据不断地涌现,特别是所有转录本(mRNA和lncRNA)的基因表达谱数据,这使得我们有可能对某一性状的形成有系统性理解,而不仅仅是从这些海量的数据中获得差异表达的基因(DEGs)。另外,陆地棉的基因组注释也越来越完整;可以用来挖掘潜在生物信息的数学算法比如基因共表达网络和贝叶斯网络越来越完善。这些都有利于我们使用这些数据进一步探索分析。
经过长期努力,科学家们已经发掘一定数量的纤文相关基因(FRGs)。此外,全基因组关联分析研究(GWAS)已经确定了与多种纤文发育特征如纤文长度和强度相关联的大量的SNP。我们选择在显著关联SNP周围200kb以内的基因集作为GWAS显著的潜在纤文相关基因(potential significant GWAS gene set , PSGG),和潜在的重要GWAS lncRNA(potential significant GWAS lncRNAs , PSGL)。我们的最终目标是发现FRG和直接导致纤文发育的lncRNA,特别是起主导作用的转录本。但是,从成千上万的转录本中很难发现这些重要的转录本。所以我们先得到候选的纤文相关基因(candidates of FRG, CFRG) , 这些CFGR包括报道的FRG、PSGG、PSGL和本实验室前期筛选得到陆地棉纤文 特异表达基因[4],以及我们自己的线性方法的预测结果。针对这些CFRGs进一步进行后续分析,以发现真正的FRGs和参与棉纤文调控的lncRNAs。这样,我们可以排除大量的非相关基因,并避免无证据地猜测,从而构建一个系统性的棉花发育的分子调控网络。基因共表达网络是过去几年来越来越多人使用的生物信息学应用算法之一,因为它能够整合多文转录数据集[5]。此外,贝叶斯网络是一种基于条件概率的数学算法,可以从观测数据中推断统计因果关系从而预测转录本之间可以互作的机制[6],可以提供除了相关性外的更多信息。
我们在这里对所有的转录本从三个递进的角度进行了荟萃分析:首先对各个转录本基本信息进行描述; 之后通过建立共表达网络来进行生物学信息推断; 最后再通过其其它生物信息学方法与贝叶斯网络来探索有价值的信息。
- 上一篇:与番茄斑萎病毒核衣壳蛋白N互作的寄主因子筛选
- 下一篇:夏季皖东牛在水泥地面木床发酵床上的体温调节反应特征
-
-
-
-
-
-
-
杂拟谷盗体内共生菌沃尔...
大众媒体对公共政策制定的影响
电站锅炉暖风器设计任务书
十二层带中心支撑钢结构...
乳业同业并购式全产业链...
中考体育项目与体育教学合理结合的研究
java+mysql车辆管理系统的设计+源代码
当代大学生慈善意识研究+文献综述
酸性水汽提装置总汽提塔设计+CAD图纸
河岸冲刷和泥沙淤积的监测国内外研究现状