cypher图数据库在微生物群落基因关系网络构建中的应用研究(3)

菜单

在利用文本挖掘方法获得现有的微生物基因组数据集的基础上，目前，对微生物基因序列进行多序列比对的主要工具是Clustal、MEGA，基于上述技术可以产生进化树。上文提到，通过分析基因关系，进一步可以了解遗传信息，进而应用到生物、医药、工林业等等领域，现有的技术基本上是利用关系数据库存储生物信息，并探索该数据库的搜索技术，进行单序列或者多序列的比对。本次研究，方向是引入新型数据库，即图数据库neo4j，利用图数据库本身处理大数据，搜索功能强大等优势，开拓出生物信息处理的新方法、新思路。

1.3 国内外研究现状

1.4 本文结构

本课题拟设计一种新型微生物基因组系统分析树系统，第四章介绍生物学传统序列分析方法，构建出微生物基因组序列系统发育树，第五章重点介绍图数据库neo4j的应用，在neo4j中构建新图，以及对图中的节点进行查询。第一章绪论部分，简单介绍了研究课题所处的大环境。第二章中提及相关技术，包括neo4j图形的构建是基于微生物基因组序列分析软件生成的进化树，以及从网络中获取的基因组数据集。第三章是简单的分析流程图以及定义介绍。第六章会对研究作一个总结，提出难点重点，走过的弯路，以及对本课题的展望。最后部分分别是致谢和参考文献。

2 相关技术的研究文献综述

使用文本挖掘方法，如网络爬虫技术，从网络中获取相关信息，对微生物基因组的研究成果有了一定的了解，应用多序列比对技术，实现在基因测序基础上的基因序列比对，然后在图数据库的大背景下，利用neo4j的构图以及查询技术，把微生物基因信息形象地展现出来。下面来一一叙述相关技术：

2.1 网络爬虫技术　　

　　网络爬虫技术简单理解就是一种自动提取信息的程序，它功能强大。从狭义上来讲，网络爬虫利用http协议，根据超链接和Web文档检索的方法遍历互联网信息空间。从广义上来讲，所有能利用http协议检索Web文档的软件都称之为网络爬虫。互联网本身是由相互链接的网站和网页组成，由于网站和网页的链接组成非常复杂，爬虫需采取一定的爬行策略（遍历策略），才能遍历到网上所有相关页面，网络爬虫技术主要有如下两种遍历策略：

1. 深度优先策略

在网页中，当一个超链接被选择后，沿着链接方向一直向前搜索，直到没有新的链接为止，然后返回到首页，沿着另一个链接再向前搜索，一般要设置遍历深度。其优点是容易达到深层网页或文件。缺点是因为网页结构及其深，可能有进去以后出不来的情况发生。源:自~751-·论`文'网·www.751com.cn/

2. 宽度优先策略

先搜索到一个页面中所有的超链接，不是沿着其中一个向前爬，而是把发现的所有链接爬一遍，然后依据第二层链接搜索第三层，再继续搜索下一层，直到底层为止。宽度优先策略通常是实现爬虫的最佳策略，因为它相对来说实现比较容易，而且期望的功能比较完善。但是如果遍历的页面较深，宽度优先策略需要花较长的时间才能做到。

一般来说，深度优先和宽度优先策略是混合使用的，这样既可以搜索到尽量多的网站也能便于搜索到一部分网站的内页。

2.2 人类肠道微生物宏基因组测序

基于Illumina公司的宏基因组测序法，即Illumina公司基因组分析仪技术（GA），这作为MetaHIT(人类肠道束的宏基因组学)项目的一部分，使用SOAPdenovo19，一个基于图形的专为短序列设计的工具，集中并突出地描述了330万个非冗余微生物基因，是从来自124个欧洲人排泄物样本的序列的576.7个碱基中推断出来的。大约80%的576.7 Gb的Illumina GA序列可以和有一个阈值为90%的片段保持一致