1.2 设计的目的与任务
在本文中的主要任务为综合运用所学专业知识,设计并实现基于融合序列信息及进化信息的传输膜蛋白靶向分类。通过完成该课题,理解并掌握模式识别技术的基本知识和步骤,学会使用PSI-BLAST软件,综合运用专业知识,锻炼程序设计能力,提高分析问题及解决问题的能力。
1.3 论文结构安排
本论文围绕对于如何准确的预测蛋白质-ATP结合位点展开的。具体内容安排如下:第一章是引言,简要介绍开发背景、设计任务和论文结构安排;第二章介绍预测方法中相关的内容,主要是围绕预测方法,包括预测方法需要的定义,参数;第三章主要是介绍在本研究中一些会用到的对数据进行处理的软件以及数据处理的流程;第四章介绍实验结果以及与其它两种方法ATPint和ATPSite的比较;最后是结论和参考文献。
2 相关概念与定义
2.1 相关数据集
在本研究中,主要是用两个基准数据集来证明该方法的有效性。
第一份数据集是由Raghava[1]等收集,由168个蛋白质序列组成,表示为ATP168。其中包括存在的3056个ATP结合位点。第二个数据集包括227个蛋白质序列,表示为ATP227,包括3393个ATP结合位点。在两个基准数据集中任何两种蛋白质的序列的定义都是少于40%。
2.2 相关概念
2.2.1 特异性迭代矩阵
特异性迭代矩阵(PSSM)是对蛋白质的发展信息进行的编码。很多以往的研究显示它的对于许多在生物信息学科中预测问题的突出的辨别能力。例如对于一个有N个氨基酸的残基的蛋白质的序列P,我们使用PSI-BLAST[9]去搜寻SWISS-PROT数据库,通过用0.001作为E的值,其他参数采用默认的设置,对多序列比对蛋白质序列去截止的三次迭代获得蛋白质链的位点特异性迭代矩阵PSSM(N行和20列)。其中,每一行均代表着一个对应残基的序列谱,是关于一个氨基酸位置信息的20文向量,向量中每个元素反映了20种基本氨基酸在对应位置出现的频率。然后,我们正规化这个得到的PSSM通过逻辑函数。逻辑函数的定义如下:
其中 表示PSSM矩阵的原始得分。
2.2.2 基于滑动窗口技术的数据处理
滑动窗口技术被用来提取剩余物等的PSSM基本特征向量,无论剩余物是否属于一个蛋白质-ATP结合位点或者不属于都会被预测。该预测是基于它的中心窗口的残留物及周边残余物的PSSM得分。在本研究中,滑动窗口的大小设置为17和所获得的PSSM基本特征向量的文数,表示为LogisticPSSM特征为 。
2.2.3 蛋白质二级结构
先前的研究已经表明蛋白质的二级结构与ATP绑定位点部分相关,因此适当的利用蛋白质的二级结构信息对于提高ATP绑定位点预测[2]有很大的帮助。在本研究中,我们获得通过应用PSIPRED[10]的预测的蛋白质的二级结构信息。这个信息预测了在蛋白质中的每一个剩余物的属于三级结构类(线圈(C),螺旋(H)和链(E))的概率。因此,对于一个有N个剩余物的蛋白质,我们得到一个 的概率矩阵,表示蛋白质的预测的二级结构信息。再者,一个17大小的滑动窗口被用于提取蛋白质二级结构基础特征,表示为PSS,每个剩余物和提取特征的文数为 。
图2.2.3 在ATP168和ATP227中绑定位点和非绑定位点的蛋白质的二级结构组合对比
我们还分析了ATP168和ATP227的二级结构组成。图1很好的说明了在两个基准数据集中的绑定位点和非绑定位点的蛋白质的二级结构组成比较。通过观察图3,可以得出两个结论:
- 上一篇:脑中风病人康复虚拟环境辅助康复任务的设计
- 下一篇:沙盘治疗在人际交往困难方面的应用
-
-
十二层带中心支撑钢结构...
中考体育项目与体育教学合理结合的研究
杂拟谷盗体内共生菌沃尔...
电站锅炉暖风器设计任务书
大众媒体对公共政策制定的影响
河岸冲刷和泥沙淤积的监测国内外研究现状
java+mysql车辆管理系统的设计+源代码
当代大学生慈善意识研究+文献综述
乳业同业并购式全产业链...
酸性水汽提装置总汽提塔设计+CAD图纸