问题1
生物信息学定义:生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面;它把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。其研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律” ,它是当今自然科学和技术科学领域中“基因组”、“信息机构”和“复杂性”这三个重大问题的有机结合。
问题2
用数据库资源如何发现新基因及途径?
同源性比较法:将新测得的序列直接和数据库中的已知基因序列或蛋白质序列作同源性比较(BLAST和FASTA);若序列相似性在35%以上、期望值E在0.01以下,就基本上可以确定是基因序列;若相似性特别高,又属于同一物种,则很可能不是新的基因。
经验规律符合法:即通过对已知基因的序列特征进行训练学习、总结出规律,再用这个规律来检验新测得的序列,以判断其是否为基因序列,如密码子使用频率方法、马尔科夫链方法以及神经网络(用来预测编码区时)。
通过和EST的比较来定位基因:EST是Expressed Sequence Tag的缩写,实际上是一些cDNA序列的片段,长度一般为400到500 bp。
问题3
利用核酸或蛋白质序列数据进行生物进化研究有哪些计算步骤?在这一领域当前存在的主要困难是什么?有何解决途径?
计算步骤:
1) 序列同源性分析, 将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。
2) 构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。
3) 稳定性检验。
在这一领域当前存在的主要困难是横向基因迁移(Lateral Gene Transfer, LGT ),为解决这个困难,我们使用排除了横向迁移基因的数据库,如(Clusters of Orthologous Groups, COG,或者使用完整基因组来构建进化树。