3.课程设计报告内容(具体步骤)
3.1 获取DNA目标序列
在genbank里的人类基因组1号染色体中找到含有Nos1ap基因的sequence,其长度为116882bp,GenBank: AL512785.7,GI:16973022,VERSION :AL512785.7(具体内容见光盘中的sequence)。
3.2 使用Repeat Masker 软件遮蔽重复序列
3.2.1 打开http-://www.girinst-org/这个网址后,点击屏蔽重复序列的软件Repeat Masking,在新出现页面中的Sequence source选择Homo sapiens,然后输入序列后,得出的结果如下图:(具体数据内容参见光盘)
图1 Repeat Masker屏蔽重复序列结果
图2 Repeat Masker屏蔽重复序列结果
由于所选的序列为人类的DNA序列,存在大量的重复序列,这些重复序列或集中成簇,或分散在基因之间。在基因内部也有许多能转录但不翻译的间隔序列(内含子)。因此,在人细胞的整个基因组当中只有很少一部份的DNA序列用以编码蛋白质。
由图1我们可以看出蓝色部分是被屏蔽掉的重复序列,屏蔽后这些重复序列的核苷酸部分被X替换(见光盘)。
由图2可以看出被屏蔽掉的重复序列包括散在的重复序列(Interspersed Repeat)、DNA转座子(DNA transposon)、Mariner/Tc1、帽子结构(hAT)、Endogenous Retrovirus、ERV1、ERV2、ERV3、Non-LTR Retrotransposon(逆转录转座子)、CR1、L1家族的长散在元件、Alu家族的只有人类基因组才有的短散在的DNA重复序列SINE、转座因子(Transposable Element)等等。
3.3 用Genscan探测DNA中的功能性位点
3.3.1 Genscan软件介绍
GENSCAN是美国麻省理工大学的Chris Burge于1997年开发成功的人类(或脊椎动物)基因预测软件,它根据基因的整体结构进行基因预测,其编码区使用五阶的马可夫模型,而不使用来自同源信息的模型,使得Genscan的结果不依靠于
hindi sms http://www.hindisms-hindi.com/ 目前的蛋白库中的相似基因,从而提供了于同源基因识别不一样的方法,是一种"从头预测"软件。
Genscan用于基因的识别外显子、内含子、基因间区域、转录信号、翻译信号、剪接信号等等。基于基因中编码序列和非编码序列区域碱基的统计差异性,根据真核基因的生物结构,建立整体的基因预测模型。其特点是根据CG组分的不同使用不同的参数,可识别序列中的多个基因。该模型也有它的局限性:只能处理相邻状态间的相互作用,只处理蛋白质编码基因(不用于tRNA,rRNA),翻译单元只考虑了内含子(没有5`,3`不翻译的区域),重叠转录单元没有考虑一些调整元素没有考虑(增强子)于可选择剪切有关的信号没有包含。对各个结构元件的预测准确性不同,总体来说,对中间外显子预测的准确性高于起始外显子和末端外显子,外显子的准确性高于polyA或启动子。本文来自辣^文'论,文·网原文请找腾讯3249.114
3.3.2 Genscan结果
在http-://mobyle.pasteur-fr/cgi-bin/portal.py?form=genscan的网站中,将步骤3.2中屏蔽的DNA序列黏贴到DNA sequence Files 的方框中,并设一下参数:
1、物种(Organism):Homo sapiens,
2、选择冗长输出(Verbose output),
3、CDS输出(Print predicted coding sequences),
4、识别亚优势外显子(Identify suboptimal exons (-subopt)),并识别几率(Cutoff value for suboptimal exons)设:0.1,
5、创建附件说明(Create Postscript output (-ps))。
最后点击RUN,即出来有编码序列的DNA序列。
运用Genscan可以得出启动子Prom( Promoter)、起始外显子Init(Initial exon)、内在外显子Intr(Internal exon)、末端外显子Term(Terminal exon)、末端PlyA以及其长度和位置。而CDS的组成不包括启动子Prom ( Promoter)和末端PlyA。
上一页 [1] [2] [3] [4] [5] 下一页
人类1号染色体上DNA目标序列获取_使用Repeat Masker 软件遮蔽重复序列 第3页下载如图片无法显示或论文不完整,请联系qq752018766