参考文献 22
致 谢 23
1 绪 论
1.1生物信息学的产生背景
诺贝尔生理学、医学奖得主R.Dulbecco1986年3月在Science上发表文章《癌症研究的转折点:测序人类基因组》,认为要彻底阐明癌症的发生、演进、侵袭和转移的机制,必须对人体细胞的基因组进行全测序。
人类基因组计划(Human Genome Project, HGP)的主要任务是:将一些生物体基因组进行作图、测序和基因识别。经过美、英、日、法、德和中国科学家的共同努力,2000年6月26日完成了工作草图;2001年2月12日完成并公布了准确、清晰、完整的人类基因组图谱。至2003年4月14日完成了人类基因组计划,比原计划提前两年,在人类揭示生命奥秘、认识自我的漫漫长路上又迈出重要的一步,这是人类科学史上又一个里程碑。人类基因组计划的成果是一个人类遗传信息数据库,是一本指导人类进化的“说明书”。人类基因组计划的实施将带动医药业、农业、工业等相关行业的发展,产生及其巨大的经济效益和无法估量的社会效益。
人类基因组计划的直接结果是获得了海量的不连续的数据。DNA蛋白质序列数据正以惊人的速度增长,在此基础上派生和整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。生物数据量如此快速度的增长,是同时得益于数理科学和计算机科学的,也呼唤着多种学科的共同努力。于是,伴随着人类基因组计划,生物信息学应运而生了。
生物信息学作为现代信息科学、计算机科学、生命科学、数学、统计学、物理学、化学等诸多学科发展到20纪末而相互渗透形成的交叉学科,已经成为当今生命科学乃至整个自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一[1]。
1.2生物信息学的研究对象
生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能量的支持。生物体同时也是一个信息系统,该系统控制着生物的遗传、生长和发育。所有的信息都存贮在生物体内的遗传物质中。生物大分子是生物信息的载体,生物信息学主要研究两种载体,即核酸分子(DNA、RNA)和蛋白质分子[2]。
1.2.1核酸
核酸是生命的遗传物质。核酸分为脱氧核糖核酸(Deoxyribonucleic acid,DNA)和核糖核酸(Ribonucleic acid ,RNA),这两类核酸分布于生物体的细胞之中。其中,主要的遗传物质是DNA,但有时也是RNA(如病毒)。
核酸是以核苷酸(nucleotide)为基本组成单元的生物大分子。每一个核苷酸都可以水解成核苷(nucleoside)和磷酸,核苷进一步水解生成碱基(base)和戊糖。所以,核酸的基本结构单位是核苷酸,其组成方式为碱基-戊糖-磷酸,如图1-1。
图1-1:核苷酸分子结构示意图
Fig.1-1: Structural representation of nucleotide molecule
DNA和RNA所含的戊糖不同:前者中的戊糖是脱氧核糖,后者的则是核糖。碱基包括嘌呤碱和嘧啶碱两类。DNA中的碱基有4种,分别是腺嘌呤(adenine,简写作A)、鸟嘌呤(guanine,简写作G)、胞嘧啶(cytosine,简写作C)、胸腺嘧啶(thymine,简写作T)。RNA中没有胸腺嘧啶T,取而代之的是尿嘧啶U(Uracil)。五种碱基的分子示意图见图1-2所示。可见,仅就DNA或者RNA分子而言,不同核苷酸之间的区别在于它们所含碱基的不同。因此,A、G、C、T (U)也常被用来直接表示相应的核苷酸。核苷酸相互连接形成长的多核苷酸链。由四种脱氧核苷酸连接而成的长链高分子多聚体为DNA分子的一级结构。DNA的一级结构完全取决于其碱基的构成,所以DNA的一级结构即其碱基序列。DNA分子中第一个核苷酸的3’-羟基与第二个核苷酸的5’-磷酸基脱水形成3’,5’-磷酸二酯键,第二个核苷酸的3’-羟基又与第三个核苷酸的磷酸基脱水形成3’,5’-磷酸二酯键,依此类推,形成线性多聚体。DNA分子中第一个核苷酸的5’-磷酸与最末一个核苷酸的3’-羟基都未参与形成3’,5’-磷酸二酯键,故分别称为5’-磷酸端(或5’-端)和3’羟基端(或3’-端)。 数学模型在生物信息学中的应用(2):http://www.751com.cn/shuxue/lunwen_13055.html