生物序列的图形表示方法研究+文献综述(9)

3.1.1 氨基酸的5-字母模型
蛋白质序列是由20种氨基酸构成的，相比于DNA序列的4种碱基，显然对蛋白质序列的各种操作都变得十分复杂。对于复杂事物，人们往往无法同时顾及它的所有细节，于是，人们便有意无意地忽略某些细节以期自己所关心的特征更为突出，这实际上就是代数学中的同态思想和物理学中的粗粒化思想。事实上，人们很早就开始研究并使用蛋白质序列的简化模型。其中，最简单的一种方式就是HP模型。其主要思想是将20种氨基酸按照各自的亲疏水性质分为两组：亲水组(P)和疏水组(H)，这样任一蛋白质分子便可看成是由H和P两个字母构成的序列。基于HP模型的研究使得人们了解了一些关于蛋白质折叠的基本原理和机制。然而，正像一些研究所指出的那样[24,25]，HP模型可能过于简单，以致于对自然界中氨基酸的多相性和复杂性缺乏足够的考虑，例如氨基酸残基之间相互作用。此外，蛋白质设计的生物化学实验也表明这种只有两类氨基酸构成的简约方式不是一种合适的选择，因为它明显地导致同类聚合物的简并。那么，自然界中蛋白质的适宜的简约化模型究竟是什么呢？或者说能够再现蛋白质有用的结构和序列特征的最简约的表示方式应需要多少种氨基酸呢？这些问题是不太容易回答的。1997年，Riddle等(详见[24,25])从实验的角度获得了一种可以解决上述问题的方法。利用组合化学上的一些策略，他们发现了自然界中氨基酸的一个子集，该子集包括5种氨基酸：异亮氨酸(I)、丙氨酸(A)、甘氨酸(G)、谷氨酸(E)和赖氨酸(K)。用这5种氨基酸可以构造出由折叠组成的蛋白质分子。三年后，基于折叠的统计学和动力学特征以及一些简化序列的基态的热力学稳定性，Wang和Wang证明了这种5-字母表示通常是可靠的，并且用其来反映由20种氨基酸构成的真实蛋白质的特征是切实可行的[24,25]。下面，我们将基于20种氨基酸的5-字母模型，给出蛋白质序列的一种新的图形表示。

3.1.2 蛋白质序列的2-D图形表示
按照Wang和Wang在文献[24,25]中的方法，20种氨基酸可被划分为下面的5类：{C, M, F, I, L, V, W, Y}，{A, T, H}，{G, P}，{D, E}和{S, N, Q, R, K}。分别取每类中的一种氨基酸I、A、G、E和K作为各自的代表。这样，一条蛋白质序列可以被约化成一条5-字母序列。例如，猪流行性痢疾病毒(PEDV)的刺突蛋白S(spike)的前30个氨基酸构成的序列MRSLIYFWLLLPVLPTLSLPQDVTRCQSTT的5-字母序列为IKKIIIIIIIIGIIGAIKIGKEIA KIKKAA。5-字母序列可以被看作是蛋白质原始序列的粗粒化描述，通过简化的序列之间的比较，很容易去理解不同类氨基酸残基的生物学功能。
对于给定的5-字母序列，类似于Randic等人的“四水平线图”的作法，画出相互间隔一个单位的5条水平线，并让G对应第一条线，I对应第二条线，K对应第三条线，A对应第四条线，E对应最后一条线。从左向右考察序列的每一个字母，遇到哪种字母，就在这种字母所对应的水平线上描点，同时，若不是最后一个字母还要向右移动一个单位。最后，用直线连接所有相邻的点就得到了一条之字形曲线。5-字母序列IKKIIIIIIIIGIIGAIKIGKEIAKIKKAA的相应图形如图3-1所示。生物序列的图形表示方法研究+文献综述(9):http://www.751com.cn/shuxue/lunwen_2316.html