摘要抗冻蛋白可以保护许多生活在极度寒冷条件下的生物抵抗低温,它们可以使细胞和体液免遭冻结,在生物技术领域具有很高的应用价值。到目前为止,已经在脊椎动物、非脊椎动物、植物和细菌等生物中发现了抗冻蛋白。随着后基因时代的到来,积累着越来越多没有备注的蛋白质序列,如何仅从序列信息中检测抗冻蛋白成为一个重要问题。抗冻蛋白在序列以及结构层面都具有多样性,正因如此,仅凭序列相似度鉴别抗冻蛋白往往是不成功的。本文中我们在前人研究的基础上引入新的基于遗传信息的特征,通过与PseAAC 特征的融合,在独立测试集上准确度达到了 88.05%,超过了业内最高水平的预测工具AFP-PseAAC,同时Youden's Index 指标也优于其他预测工具。实验结果可以说明,引入基于遗传信息的特征对于抗冻蛋白的预测性能的提升具有显著效果。31026
毕业论文关键词 抗冻蛋白质预测;特征表示;支持向量机;随机森林
Title AFPs prediction based on sequence
Abstract Antifreeze proteins can predict creatures living in low temperatures from coldness. They can prevent the cell and body fluids from freezing, which have a wide range of Biotechnological applications. AFPs are present in vertebrates, invertebrates, plants, bacteria, fungi, etc. With the enormous amount of genomic data available today, a rapid, specific and highly precise automated approach is desirable for identification and annotations of AFPs。Although AFPs have a common function, they show a high degree of persity in sequences and structures. Therefore, sequence similarity based search methods often fails to predict AFPs from sequence databases. A new descriptor named MEDP based on evolutionary information is introduced and fused with PseAAC feature. Our method achieves an accuracy of 88.05% in independent dataset, which is higher than the state-of-the-art. High accuracy suggests that evolutionary information is effective in improving the performance of AFPs prediction.
Keywords AFPs prediction; feature representation; SVM; random forest
目次
1、绪论1
1.1简介1
1.2研究的背景及意义1
1.3研究现状..3
1.4本研究概况4
1.5本文内容安排.4
2、特征表示5
2.1数据集.5
2.2PSSM..5
2.3PseAAC6
2.4MEDP..8
3、分类器10
3.1SVM..10
3.2随机森林和极限随机森林..10
4、实验结果与分析..12
4.1衡量指标.12
4.2实验步骤.12
4.3实验方法.13
4.4MEDP特征对预测性能的影响..14
4.5特征重要性衡量.15
4.6与已有方法比较.16
4.7在线工具使用说明..17
结论20
致谢21
参考文献..22
1、绪论 1.1简介 抗冻蛋白质(Antifreeze proteins,简称 AFPs) 是一种可以提高生物体抗冻能力的蛋白质化合物的统称[1]。在二十世纪初期,人们在极地海洋鱼类的血清中发现了一种能够与冰晶相结合的特异性蛋白质的,它文持了生物体液处于非冰冻状态,在这些地区生存下来的鱼类都能够合成这种特异性功能的蛋白质,以适应极其严寒的生存环境。研究发现,抗冻蛋白质是通过它的苏氨酸残基上的羟基与冰晶上的氧之间形成氢键,这种分子间的作用力降低了冰点,抑制了冰的产生,从而达到抗冻的功效。随后相继在昆虫、植物以及微生物的体内发现有相似功能的蛋白质,它们的组成结构多种多样。1.2研究的背景及意义 周围的环境在生物体的生存中发挥着重要作用。严寒的环境会导致细胞内冰的形成,这将会对生物体造成致命的打击。最初人们认为像南极洲那样的极地地区过于寒冷,气温低于生物体液的冰点,不适合居住。然而,1957 年,Scholander 等人[2]发现某些鱼类生活环境的温度低于它们体液的冰点。随后有报道指出,一些越冬植物可以在零下 50 度的环境下生存 基于氨基酸序列的抗冻蛋白质预测:http://www.751com.cn/tongxin/lunwen_27041.html