2006年,Randic等人[13]用单位圆来代替Jeffrey[21]的CGR中的单位正方形,将20种氨基酸按字母表顺序排放在单位圆圆周的20等分点处,如图2-7所示。作图规则与Jeffrey的CGR的构造规则相同:依次考察组成蛋白质序列的氨基酸,从圆心出发,遇到哪种氨基酸就向着圆周上代表这种氨基酸的点移动,移动的距离为当前点与圆周上相应点距离的一半,直到蛋白质序列上所有的氨基酸都被表示成点,最后,将相邻两点连线就得到了蛋白质序列的图形表示。但是,这种图形表示仍然存在如何选择氨基酸的排列顺序问题:20种氨基酸在圆周上的排列方式有 种。
图2-6:单位圆周上按字母表顺序排列的20种氨基酸
Fig.2-6:The unit circle on which are distributed 20 amino acids based on alphabetical order of three letter protein code
2.3 数值刻画
生物序列的图形表示不但使我们可以比较直观地考察生物序列,从相似的序列中发现它们的差别,还为生物序列的数值刻画提供了一种途径。下面介绍几种根据图形构造的矩阵以及基于矩阵的不变量。
2.3.1 矩阵表示
基于图形的矩阵主要包括:ED、GD、PD、D/D、L/L矩阵等[6],这些矩阵都是对称的,具体构造如下:
ED矩阵:其元素定义为曲线上两点i与j之间的Euclidean距离。
GD矩阵:其元素定义为曲线上两点i与j之间的图论距离。
PD矩阵:其元素定义为曲线上的点i, i+1, i+2, …, j之间相邻两点的Euclidean距离之和。 (i j)
D/D矩阵:其元素定义为ED和GD矩阵相应元素的商。
L/L矩阵:其元素定义为ED和PD矩阵相应元素的商。
2.4.2 序列不变量
由上述矩阵的构造过程我们可以看到,这些矩阵的阶数是和生物序列的长度一致的。因而,当相比较的两个序列较长时,矩阵的直接利用并不方便。近年来,Randic等人[45,46,53-56]提出了基于不变量的序列的比较方法。常用的不变量有Wiener数、平均矩阵元素、平均行(列)和、最大特征值等。Wiener数、平均矩阵元素、平均行(列)和三者的差别仅在于它们的正规化子不同,它们计算简单,但并不能精确反映矩阵所包含的信息。而最大特征值是一个应用广泛而且已被证明是很有效的不变量。
3 基于5-字母模型的蛋白质序列图形表示方法
3.1 蛋白质序列的图形表示
DNA及蛋白质序列的比较是生物信息学的主要研究内容之一。随着生物分子数据的迅猛增长,揭示这些数据的内涵,得到对人类有用的信息,是人类所面临的严峻挑战。由于直接从原始序列本身寻找信息相对比较困难,所以人们利用各种工具和手段对DNA原始序列加以改造并进行分析。一些研究者将图形表示应用于DNA序列的比较,取得了很好的效果[5-10,14-16,17-19,20-22]。由于DNA序列的4种碱基排列方式的随机性与图形的对称性,要完全描述一条DNA序列本质上需要至多4!/2=12种不同的图形表示,分析起来还比较容易。然而与DNA序列相比,蛋白质序列的图形表示则要复杂得多。因为代替考虑由4种字母构成的字符串,我们要考虑由20种字母构成的字符串。如果将DNA序列的图形表示直接推广到蛋白质序列,则相应的数字为20!/2,这个巨大的数字无疑会给研究工作造成不便,这也是蛋白质序列的图形表示远远少于DNA图形表示的一个主要原因。2.3节已经介绍了蛋白质的几种图形表示方法。本节我们将基于蛋白质序列的一种粗粒化模型给出一种新的2-D图形表示,这种方法的随机性相对较小。 生物序列的图形表示方法研究+文献综述(8):http://www.751com.cn/shuxue/lunwen_2316.html