(2) 转录
转录是基因表达的第一个阶段。转录就是以DNA分子为模板,合成出与其核苷酸顺序相对应的RNA的过程,即DNA指导下的RNA合成。常见的RNA包括信使RNA(mRNA)、转运RNA(tRNA)和核糖体RNA(rRNA),它们都是在细胞核内以DNA为模板,按碱基配对原则合成的。
(3) 翻译
蛋白质的生物合成是mRAN链上每3个核苷酸决定一个氨基酸的三联体密码规则,合成出具有特定氨基酸顺序的蛋白质肽链。蛋白质合成过程本质上是遗传信息的翻译过程,是基因表达的第二个阶段。mRNA是蛋白质合成的直接模板,因为合成过程实际上是将mRNA的核苷酸序列转换为蛋白质的氨基酸序列,是两种不同分子“语言”的转换,所以,把以mRNA为模板的蛋白质合成过程成为翻译。
由于DNA中有四种碱基,而蛋白质中有20中氨基酸,显然单个碱基不能为氨基酸编码。如果DNA序列中每2个相邻的碱基决定一个氨基酸残基,则只能表示 4*4=16种氨基酸;如果3个相邻碱基对应一个氨基酸,那么所能表示的氨基酸有64种,可以满足20种氨基酸的编码需要,因此mRNA序列上3个相邻的碱基组成一个密码子(codon),或称三联体密码,一个密码子对应一个氨基酸。
1.2 生物信息学的主要研究内容
1.3.1 序列比较
序列比较是生物信息学中最基本、最重要的操作,通过序列比较可以发现生物序列中的功能、结构和进化的信息。序列比较的根本任务是通过比较生物分子序列发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。注意,序列相似和序列同源是不同的概念。序列之间的相似性是可以量化的参数,即数量上多或少的判断。而序列是否同源需要有进化事实的验证,序列的同源性判断是质的判断,序列之间要么同源要么不同源。
序列比较的基本操作就是比对(alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是找出两个序列共有的排列顺序,这是序列相似程度的一种定性描述,它反映出在什么部位两个序列相似,在什么部位两个序列存在差别。最优比对反映了两个序列的最大相似程度,经典的方法就是基于动态规划算法的比对算法—Needleman-Wunsch算法和Smith-Waterman算法。 Needleman-Wunsch算法是典型的全局比对算法,适合于整体相似度高的序列。Smith-Waterman算法是典型的局部比对算法,它使用迭代方法计算出序列之间的相似性分值,然后采用回溯技术找到最优的比对。该算法在识别局部相似性时的灵敏度很高,是后来的各种局部比对算法的基础。同时多序列比对算法在双序列比对算法的基础上得到开发,这些算法都需要定义适当的打分函数,而打分函数的定义通常都是基于对序列进行的编辑操作来进行的,这里的编辑操作是指插入一个字符、删除一个字符或者将一个字符替换成另一个字符[3]。由于打分函数中的空位罚分理论缺乏理论依据,同时比对算法的时间和空间复杂度并没有达到理想的效果,这就促使很多学者试图寻找其它的方法来比较序列。
近年来,Randic等人提出了一种基于序列不变量的序列比较方法,开辟了一条序列比较的新途径[4]。这种方法来源于计算化学中的化学指标计算,是一种间接的序列比较方法。最终,一条序列将由一个k-文向量来描述,这个向量常被称为序列的描述子(descriptor)。一旦生物序列具有了向量的形式,两条序列之间的比较就被与这两条序列相对应的向量(描述子)之间的比较所代替。序列到向量描述子之间的转换可以按如下步骤实现[4]: 生物序列的图形表示方法研究+文献综述(5):http://www.751com.cn/shuxue/lunwen_2316.html