的微生物以其庞大的种类和数量具有独特的研究价值。在人类小肠中,栖息着许多种 类的微生物。在肠道中的微生物数量已经是人体的自身细胞数量的 10 倍甚至更多。 这些微生物内部的基因序列中包含了大量的遗传信息,正因如此,这些微生物的基因 组被学术界称为“人体的第二个基因组”[4]。了解这些微生物及其相互间的遗传进化 关系,能够有助于更好地分析人类有关肥胖和耐药性等相关热点问题,同时也可以应 用到生物、医药、工林业等领域。
在获取相关微生物基因组数据集的基础上,利用目前流行的进化树(系统树)算 法,构建目标微生物群落的进化树结构,并运用上文提到新型数据库——图数据库 neo4j 存储生物信息,记录并查询物种之间的遗传进化距离。该课题在传统的微生物 遗传信息研究中加入了大数据的思想,利用图数据库本身处理大数据,搜索功能强大 等优势,为生物信息研究开拓了全新的视野新。
1.3 采用的关键技术
本课题旨在分析选择适当算法,既能够满足微生物基因序列遗传拓扑分析的生物 性要求,保证遗传距离的计算误差较小,并且尽可能接近物种自身演化的系统树(真 正的物种树)[5],又要满足计算机科学的相关要求,能够通过计算机构建成合适的模型 以模拟出生物进化的变量。然后,使用图数据库 neo4j 将物种遗传信息进行存储,并 进行相关拓扑信息的分析。
1.4 本文结构
本课题在原有的邻接(Neighbor-joining)算法基础上,使用优化算法构建微生物基 因组系统分析树系统。第一章绪论部分,简单介绍了研究课题所处的背景及研究意义。 第二章主要描述课题相关技术的发展现状,包括 neo4j 图形的构建、构建进化树有关 算法的研究和大数据特征及运用。第三章主要是构建算法模块的模型和关键技术的解 析。第四章则详细介绍了构建出微生物基因组序列系统发育树并运用 neo4j 图数据库 进行存储和展示的具体实现。第五章记录了实验的测试和验证步骤。第六章对整体的 课题研究进行一个总结,提出难点重点,以及对本课题后续的研究可能性。最后部分 是致谢和参考文献。
2 相关技术的研究及发展现状
本次研究主要将微生物基因序列的遗传距离等信息按照一定算法规则构建进化 树,并存入图数据库,再进行相关拓扑结构的分析。通过资料的查阅和期刊文献的阅 读,下面逐一叙述相关技术的发展现状:来!自~751论-文|网www.751com.cn
2.1 微生物所在人体肠道细菌耐药基因研究
通过十年的努力,人类利用人体微生物基因组计划,从而对微生物有了更加深刻 的理解。这一计划于 2007 年正式启动,获得了美国国立卫生研究院的立项资助。该 计划旨在通过完成 900 个人体微生物基因组测序,从而进一步探索人体微生物基因组 的可行性,以及研究人体微生物基因组变化与疾病情况、健康状况之间的关系。当然 也为其它方面的科学研究提供一定的技术支持。
在这个研究计划中,研究人员发现肠道微生物对人类的巨大作用和影响,它与人 体的自身发育、肠道内部的营养物质的代谢以及人体免疫及疾病的产生等方面都有着 非常紧密的关联。例如:由于肠道微生物的保护,肠道上皮细胞减少了伤害的可能, 同时也调控了宿主脂肪的储存情况,刺激肠道血管的生成,并且阻止病原菌在肠道组 织中的寄生,以及对免疫系统的发育和分化产生了一定的影响。随着人们对肠道微生 物的了解的进一步加深,有关于肠道菌群与人体健康关系的一些热点问题也被不断提 了出来。中科院朱宝利课题组在 2013 年完成了有关人体肠道中细菌抗药基因进行了 研究,成功在国际上首次鉴别出了 1093 个耐药基因的图谱。在随后的工作中,研究 小组又将这 1093 个耐药基因分成了 149 个不同的耐药基因型。通过进一步的研究发 现,中国人肠道中平平均含有 70 个耐药基因型,而丹麦人只有 45 个,西班牙人只有 49 个。课题组进行进一步的分析后认为,在人体肠道抗药基因的数量上,中国不同 于丹麦人和西班牙人的原因,一方面后两个国家的人口都属于欧洲,在肠道内细菌的 群落可能产生差异,另一方面很可能归咎于不同地域抗生素使用的偏好性不同 生物信息云平台上的微生物群落拓扑分析(3):http://www.751com.cn/jisuanji/lunwen_77001.html