1.5.1 Numpy .. 8
1.5.2 Pandas .. 8
1.5.3 Scipy .. 8
1.5.4 Matplotlib .. 8
1.5.5 ETE Toolkit 8
1.5.6 NetworkX . 8
1.5.7 Pygraghviz .. 8
1.6 进入Qiime工作流前测序原始数据的初步处理 . 9
1.6.1 提取barcode序列 9
1.6.2 reads拼接 9
1.6.3 fasta文件拼接 9
1.6.4 割库 . 9
1.6.5 去除嵌合体序列 10
1.7 OTU聚类和数据的分析和可视化 11
1.7.1 OTU聚类 11
1.7.2 OTU聚类和系统发育树的可视化 .. 11
1.8 多样性分析 .. 12
1.8.1 α-多样性分析 .. 12
1.8.2 β-多样性分析 .. 13
1.9 存在显著性差异物种分级聚类并可视化 13
2 结果与分析 . 13
2.1 土壤样品基本理化性质的分析 . 13
2.2 初步处理后的序列的质量控制结果 .. 14
2.3 OTU聚类和数据的分析和可视化结果 14
2.4 多样性分析结果 14
3 讨论 15
3.1 土壤理化性质的改变和土壤细菌群落结构变化的关系 15
3.2 16s rRNA基因测序技术在土壤微生物生态研究中的局限性 . 16
3.3 Python在16s rRNA基因测序数据分析中的优缺点 16
致谢 . 16
参考文献. 16
附录 . 18
5 引言 微生物是土壤最活跃的组成。从定植于土壤母质的蓝绿藻开始,到土壤肥力的形成,土壤微生物参与了土壤发生、发展、发育的全过程,推动了地球表层系统关键生态过程,文系了陆地生态系统物质与能量的良性循环,被称为地球元素生物地球化学循环的引擎 [1]。土壤细菌群落功能多样性又是土壤微生物群落状态与功能的指标,反映了土壤中微生物的生态特征[2]。有研究表明长期施用有机肥可以增加土壤细菌群落的多样性[3],长期施用化肥会降低土壤细菌群落的多样性[4]。 土壤中最多可达 99%的微生物尚未被培养,其功能尚未可知。同时,以 rRNA序列比对为基础的分子指纹图谱技术极大地改变了传统的研究理念和方法,将土壤微生物学的研究对象从单个菌种资源发展到整体的细菌群落演替及功能意义。 16S rRNA位于原核细胞核糖体小亚基上,包括 10 个保守区域(Conserved Regions)和 9 个高变区域(Hypervariable Regions), 其中保守区在细菌间差异不大,高变区具有属或种的特异性,随亲缘关系不同而有一定的差异。因此,16S rDNA 可以做作为揭示生物物种的特征核酸序列, 被认为是最适于细菌系统发育和分类鉴定的指标。16S rDNA扩增子测序(16S rDNA Amplicon Sequencing),通常是选择某个或某几个变异区域,利用保守区设计通用引物进行 PCR 扩增,然后对高变区进行测序分析和菌种鉴定,16S rDNA扩增子测序技术已成为研究环境样品中细菌群落组成结构的重要手段[5]。 随着高通量测序平台的不断发展,升级后的HiSeq测序平台可实现双端测序的PE250策略,达到与MiSeq 平台相同的读长,并且在通量和测序质量上比 MiSeq 有了很大的提升,成为更适用于16S 扩增子测序的新平台。HiSeq PE250 测序深度高,更有利于低丰富群落物种的鉴定,提高细菌群落研究的完整性, 是研究细菌群落多样性的首选之策[6]。 Python 易学,语法明晰,并且能很容易地调用以 C,C++或者 FORTRAN 编写的模块从而实现扩展。在本项研究中,我们采用了基于 Python编写的Qiime(微生物群落结构分析工具)、Biopython(用于生物序列处理的 Python包),和其它的一些用于科学计算和数据可视化处理的 Python包,完成了16s rRNA 基因测序数据的预处理、样品复杂度分析(Alpha Diversity) 、多样品比较分析(Beta Diversity)和组间差异物种分析。 1 材料与方法 1.1 土壤样品介绍与处理方法 对照组(CK)和实验组(OM)的土样取自河北曲周某块进行长期定位实验的小麦地。对照组(CK)为完全不施肥的耕作方式,实验组(OM)为牛粪 200kg/亩+70%NPK+秸秆全量还田的耕作方式,每个对照三个重复。 土壤基本理化性质的测定按照《土壤农化分析》[7]中的标准流程进行,分别测定了6个样本中的pH、EC 值、含水量、有机质含量共计四个指标。 接下来,我们使用 FastDNA® SPIN Kit for Soil 试剂盒分别提取了 6个样本中的DNA,并送往某生物科技公司进行 16s rRNA 基因测序。根据所扩增的 16S区域特点,基于 Illumina HiSeq 测序平台,利用双末端测序(Paired-End)的方法,构建小片段文库进行双末端测序,进而得到下机数据,我们称之为 Raw PE的fastaq 文件。 1.2 Python 语言以及生物信息相关 Python包和软件的介绍 Python 是一种广泛使用的高级编程语言,由 Guido van Rossum 在 1991 年发布。Python强调代码的可读性,特别是用空格缩进来分割代码块,允许程序员使用比 C++或者 java 等语言更少的字符来表达概念[8]。Python 有一个动态类型系统和自动存储管理器,支持自动的垃圾回收,并支持多种编程范式,包括面向对象的编程、命令行式的编程、面向过程的编程以及函数式编程。Python 解释器可用于许多操作系统,从而可以让Python代码在各种系统上运行。 Python目前有2 和 3 两大版本,Python3大幅度改进了字符编码问题,这对生物序列(譬如 DNA、RNA 的序列)的处理非常有利。由于 Pygrahviz 包兼容性的缘故,本项研究所有代码均基于 Windows10系统和Python3.4。 在科学计算方面Python有Numpy和Scipy两个基础包,本项研究使用的其他Python软件包以及自己编写的脚本均不同程度地调用了这两个包。Numpy 主要被用来生成 N 文矩阵,并进行相关的矩阵运算,这是进行统计运算的基础,Scipy 则是 Numpy 的补充,封装了大量可直接调用的的统计学功能,譬如方差分析、显著性检测。 1.2.1 Python 在生物信息方面的应用 Python 能够方便的处理各种格式的文本,而生物序列数据也是以文本的形式存储在磁盘上的。Biopyhton 提供了表示生物序列和序列注释的类,并且能够读取和写入各种文件格式,它允许以编程的方式访问生物信息相关的数据库(比如NCBI 的数据库),此外它还提供了一些简单的基因组和系统发育树的可视化工具。 而在微生物基因组方面,基于 Python 编写的 Qiime 提供了基于原始 DNA 测序数据的分析工作管线。它可以被用来处理来自 Illumina 或者其它平台的数据,并提供了开源且公认的质量控制、可视化和统计工具,这些工具包括多路的测序文件质量控制、OTU聚类、确定微生物分类、建立系统发育树和多样性分析与可视化工具。 1.3 Python 开发环境搭建以及 Biopython包的安装和使用 1.3.1 安装 python 和相关的科学计算的包Python 安装包在官网下载,选择适合自己电脑操作系统的版本,建议选择 3.4,64位windows
- 上一篇:猪肉色相关候选基因TFRC的鉴定与组织表达模式分析
- 下一篇:独脚金内酯合成基因CmCCD8克隆及调控菊花营养生长特性的研究
-
-
-
-
-
-
-
中考体育项目与体育教学合理结合的研究
大众媒体对公共政策制定的影响
河岸冲刷和泥沙淤积的监测国内外研究现状
电站锅炉暖风器设计任务书
当代大学生慈善意识研究+文献综述
酸性水汽提装置总汽提塔设计+CAD图纸
java+mysql车辆管理系统的设计+源代码
十二层带中心支撑钢结构...
乳业同业并购式全产业链...
杂拟谷盗体内共生菌沃尔...