ATP是一个有着多种功能的分子,作为细胞内的能量储存和传递的使者,在膜间物质运输,细胞运动,各种细胞代谢过程中都有重要的作用。ATP是生物体内最直接的能量来源,其末端第2个高能磷酸键,在其水解断裂过程中能释放大量化学能以供生物体需要。
配体绑定蛋白质是一种在所有从原核生物到人类现存的类群中的最大的最古老的蛋白质。这些蛋白质横跨膜,在细胞内和细胞间运输基质,并在此过程中需要大量的ATP提供能量以支持生物学功能,这样的交互使得研究蛋白质绑定残基变得可行。有数据表明,在蛋白质数据银行(PDB)的3860个序列中,6%的已知序列被注解为ATP绑定蛋白质[1]。此外,ATP 绑定残基可以作为探索化疗代理的有价值目标[2],因而,正确的预测蛋白质绑定ATP有极大的科研和医学意义。源:自/751-·论,文'网·www.751com.cn/
过去的几十年间,人们一直在不断辨别配体绑定残基的各种特征。分析配体绑定序列和序列结构模型是前人研究的主要方向。由于这些序列仅代表了一类或者一种序列结构,并未包括所有的序列信息,因而预测结果并不准确。但是正是这些缺乏多种生物信息的蛋白质序列的研究促进了预测系统计算机化的发展。
在预测系统的开发方面,ATPint[4]作为第一个专门为预测蛋白质定位点设计的系统,将经过3步程序的筛选处理得到的大小为168的非绑定残基序列作为基准数据库,而在技术的发展和研究的不断深入过程中,蛋白质二级结构,序列特征信息等生物或物理化学信息用于模型数据收集,使得预测系统不断精确。此后的ATPsite[5]等软件则采用了更大的基准数据库即ATP227,并采用了具体位置得分矩阵的技术,因而达到的精确度更高。
而在本篇论文及设计中,为了解决在蛋白质序列中非绑定残基的数目比绑定残基少很多这一非平衡学习问题,将采用下抽样技术并结合修正的Adaboost算法对训练的数据集合处理,这样在利用了修正的Adaboost算法,即MAdaboost算法,尽可能的避免了蛋白质有效信息丢失,同时下抽样技术避免了数据集中重复数据的反复使用带来的精度差距。
1.2 本文的主要工作
本文首先采用blast+软件结合SWISS-PROT数据库对已知蛋白质序列比对分析,输出相应的pssm,经过正规化处理后,将得到的矩阵进一步处理后,对已知的矩阵使用libsvm训练得到的模型对数据集训练预测得出的结果并于阀值比较,这个过程将由TargetATPsite这个J2EE环境下的网页程序实现(具体结构将于第三章介绍)
1.3 论文结构
第二章,简单介绍了论文及设计所涉及的一些主要知识点,包括:PSSM矩阵,Adaboost算法。这一章概要介绍这些知识点,为接下来的程序描述过程做个铺垫
第三章,重点介绍了使用的两种软件,psiblast和libsvm对数据的处理预测过程,这两种软件将用在程序的设计过程中
第四章,重点介绍了TargetATPsite的结构和实现过程,实现细节。
第五章,重点介绍了TargetATPsite的设计细节。
第六章,重点介绍了TargetATPsite可存在的改进方向。
2 TargetATPsite预测系统基础知识
2.1 PSSM矩阵
PSSM矩阵的全称为Position-specific scoring matrix,是一种常用在生物信息学中表示序列信息的模式,用一个多维的矩阵表示蛋白质序列中的每个蛋白质的位置信息,其中本次使用的仅仅为20维,该矩阵分别对应字母表中的每个字母,而一个矩阵则代表了相应氨基酸的得分情况。文献综述
位置特异得分矩阵可以记录下蛋白质序列的进化信息。在过去的一些研究中,特别是在生物信息学领域的分析中,该矩阵发挥了自己突出的能力,比如蛋白质-配体绑定位点预测,蛋白质二级结构预测等方向。