
蛋白质工程 课程论文
题 目: 蛋白质高级结构预测的研究进展
学 号: 20 0 8 0 4 0 4 B 0 67
* ** ***
年 级: 2008级
学 院: 材料与化工
系 别: 生物工程系
专 业: 生物工程
**** **
完成日期: 2011 年 6 月 23 日
蛋白质高级结构预测的研究进展
徐仁强
材料与化工学院 生物工程2班
摘要:
蛋白质的高级结构预测问题是当今理论生物物理学领域中的研究热点,不仅具有重要的理论价值,而且,对于蛋白质的结构与功能关系、蛋白质分子的从头设计、药物靶蛋白的研究等都具有十分重要的理论指导意义。本文主要介绍了蛋白质结构预测的原理、主要方法和研究进展。详细地综述了几种主要方法,并简单地介绍了蛋白质结构预测的几个不同阶段,提出了在蛋白质结构预测方面存在的一些困难,还总结了蛋白质结构预测的发展趋势。
关键词: 结构预测 二级结构 三维结构 总结与展望
1 结构预测方法分类
蛋白质分子是由20种不同的氨基酸通过共价键连接而成的线性多肽链,然而天然的球状蛋白质分子的水溶液中并不是一条走向无规的橙散肽链,每一种蛋白质在天然条件下都有自己特定的空间结构。由于蛋白质的功能与其空间结构密切相关,蛋白质分子空间结构的知识已成为深人了解该蛋白质如何行使其生物功能的先决条件。
仅仅依靠氨基酸序列预测蛋白质的结构及折叠机制被称为“第二遗传密码”[1]问题。其中,蛋白质折叠的预测方法主要是依靠残基物理化学性质构建经验性的能量函数,如CHARM[2],AMBER[3]来预测蛋白质结构。这类方法一般包括以下四个部分:1.蛋白质的一种表示方式;2.与表示方式相对应的能量函数;3.能搜索出最优结构的算法:4.评价预测结果的方法。大多数此类方法都将蛋白质的表示方式进行了简化,如HP模型,HPNX模型,并且主要是对Cα原子、Cβ原子、肽链以及侧链的质心位置进行预测。每种蛋白质的表示方式,都有与之相对应的能量函数,用于指导我们寻找最优的结构。在构造能量函数时,往往需要运用序列与结构数据库中的统计信息来优化能量函数中不同相互作用力的权值参数。能量函数的选择对成功的预测蛋白质结构是很重要的[4]。能量函数大致分为两类:(1)以统计为基础的能量函数:(2)以物理性质为基础的能量函数。
1.1 以统计为基础的能量函数
该类方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。它是进行蛋白质结构预测较为成功的一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。Simon[5]以蛋白质的折叠与局部序列的折叠倾向具有一致性这个结论为基础,从己知的结构数据库中找出了一个给定序列片段的结构集合,估计了该片段的局部结构倾向性,从而形成了Rosetta方法的基础。预测的结构是将片段集通过Monte Carlo过程组合起来,其打分函数是与结构域序列匹配的贝叶斯概率。
1.2 以物理性质为基础的能量函数
理论分析方法是通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。例如,Scheraga。”提出了以物理性质为基础的简化模型。模型对CHARMM(Chemistry at HARvard Macromolecular Mechanics)的能量函数进行了简化,仅考虑了其中二面角和范德华力对能量的贡献。该方法将蛋白质按其物理性质进行了分类,简化了蛋白质的表示方式,同时通过对权值的调整区分了不同类残基之间的相互作用力。
最近几年对蛋白质折叠的研究已经得到了迅猛发展,但其预测精度还是不能达到一大连理工大学硕士学位论文些领域的精度要求,如药物设计领域。但在现阶段,低精度的结构预测对于基因组注解来说还是足够的。一些学者已经开始了这个领域的研究。Baker[6.7.8]通过将预测结构与PDB中己知结构进行比较,找出了相关蛋白质,并类推出了待预测蛋白质的一些功能,总而言之蛋白质折叠的研究在今后几年还会有很大的发展。
2 蛋白质二级结构预测
二级结构预测被认为是预测三维结构所经过的一个阶段,即首先从一级结构预测出二级结构,然后把二级结构堆积成最后的三维结构。但由于目前的二级结构无法很好地考虑蛋白质中的长程相互作用,所以预测准确率一直较低,因此从一级结构经过二级结构到三级结构的方法进展缓慢。但值得注意的事,近年来随着多重序列比较方法及其它方法的发展,二级结构预测的准确性在某种特定条件下有了很大的提高,如在有已知结构的蛋白质同源序列中,可进行序列比对的情况下,一些多重序列匹配比较好的序列的预测准确性可以达到88%以上[9-12]。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测的精度较好,对β折叠差一些,对于除α螺旋和β折叠等之外的无规则二级结构则效果更差。
在二级结构预测方面,主要有以下几种不同的方法,即立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。较传统的方法如Chou.Fasman方法,GOR方法,Lim方法等等,这类方法总的特点是以原子间距,扭角或氢键模式作为根据,但在实际预测中,影响蛋白质构象的因素很难考虑周全。Chou-Fasman方法和GOR方法属于概率统计方法,这类方法的缺点在于没有充分考虑残基间的长程作用。相反的,Lim方法基于物理化学方法预测蛋白质的二级结构,这一方法不仅考虑到短程相互作用,即共价键作用和离子键作用等,而且在一定程度上考虑了长程相互作用,包括范德华力,氢键和疏水键相互作用,结果Lim方法较前两个方法预测的精度要稍高一些。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上,二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。尽管人们己经建立了许多二级结构的预测方法,但其准确率一般都不超过70%。这很可能是由于这些方法大都只利用序列的局部信息,预测时考虑的局部序列长度一般小于20个氨基酸残基。因为局部序列对二级结构的影响只占65%左右,所以在预测蛋白质二级结构时,需要考虑全局信息和进化信息等。预测准确率超过70%的第一个软件是基于神经网络的PHD系统,该系统除使用序列的局部信息外,张红娟:基于非格点模型的蛋白质结构预测研究还使用了序列的进化信息。虽然二级结构预测的准确性有待提高,但其预测结果仍然能提供许多结构信息,尤其是当结构尚未解出时更是如此。
NnPredict用神经网络方法预二级结构,这个方法对全口蛋白能达到79%的准确率。PrcdictProtein利用了多序列比对的剖面文件,其平均预测准确率达到72%。SOPMA带比对的自优化预测方法,将几种二级结构预测方法汇集成“一致预测结果”,采用的二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PttD方法和SOPMA方法。实验证明多种方法的综合应用平均效果比单个方法更好。
3 蛋白质三维结构预测
三维结构预测是指从蛋白质的一级结构出发测定未知的蛋白质的空间结构,这是蛋白质结构预测的最终目标。目前还没有一种预测方法能得到比较满意的结果,不过最近的发展十分令人鼓舞,产生了一些有一定作用的三维结构预测方法。并且随着对蛋白质结构规律和折叠规律的进一步认识,蛋白质三维结构预测已经转变为如何有效的搜索构象空间和如何区分出天然结构和错误结构的问题。
x射线晶体衍射方法和核磁共振技术是目前测定蛋白质结构的主要方法,但实验方法耗资耗时,且受实验条件的,因此利用数学和计算机技术预测蛋白质结构具有十分重要的意义。蛋白质一级结构决定其空间结构是蛋白质结构预测的基础。目前,从理论上预测蛋白质结构的方法通常有基于知识的预测(同源模建,折叠识别)和从头预测。基于知识的预测依赖于人们对于蛋白质结构规律的认识,其基础是对于已知的蛋白质结构进行分析,总结结构规律,因而,用这种方法无法产生全新结构。从头预测不需要已知结构信息,直接从蛋白质序列预测其空间结构,在理论上是一种理想的方法。
蛋白质分子结构预测除了它自身的理论意义外,同时又是设计全新蛋白质的基础,在制药、食品、农业、环境等诸多领域都有广阔的应用前景,具有重要的现实意义。目前国际上许多著名制药公司都投入了大量的人力、物力从事基于蛋白质分子结构预测的药物分子设计研究。美国还出现了主要利用结构预测方法设计药物的公司。
3.1 蛋白质结构预测的整体框架
依据待预测的蛋白质结构与数据库中蛋白质序列同源度大小,蛋白质结构预测的流程如图3.1:
3.2 同源模建方法(Homologous Modeling)
同源模建方法也称为比较模建法(Comparative Modeling),是一种基于知识的蛋白质结构预测方法[13-15]。目前主要是指同源结构预测,它是在未知蛋白质有同源结构可以参考的情况下应用的一种技术,是目前最为成熟的蛋白质结构预测方法,并且已有商业化软件可以使用,如BIOSYM/MSI公司的Homology和Protein Design等。
蛋白质根据序列同源性可以分为不同的家族,一般认为,序列相似性大于30%的蛋白质可能由同一祖先进化而来,称为同源蛋白质,同源模建的理论基础是在进化过程中蛋白质的三维结构的保守性远大于序列的保守性,因此,已知同源蛋白质家族中某些蛋白质的结构,就可以预测其它一些序列己知而结构未知的同源蛋白质的结构,可以用同源模建的方法预测未知蛋白质的三级结构。一般而言对于同源性为60%的蛋白质可以建张红娟:基于非格点模型的蛋白质结构预测研究立高精度的模建模型,主链原子的预测误差大约为1埃;同源性大于60%的蛋白质其预测结果将接近于试验得到的测试结果;同源性低于30%的蛋白质难以得到理想的结构模型,并且随着同源性的降低,模型误差会迅速增加。
3.3 折叠识别方法(Fold Recognition)
折叠识别(Fold Recognition/Threading)是近年来发展起来的~种比较新的方法。它可以应用到没有同源结构的情况中,并且不需要预测二级结构,便可以直接预测蛋白质的三级结构,是一种很有潜力的预测方法。折叠识别方法的主要原理是把未知蛋白的序列和己知的结构进行匹配,找出一种或几种匹配最好的结构作为未知蛋白质的预测结构。它的实现过程是总结出己知的的蛋白质结构模式作为未知结构进行匹配的模板,然后用经过对现有的数据库的学习总结出的可以区分正误结构的平均势函数(Mean Force Field),作为判别标准来选择出最佳的匹配方式。这种方法的局限性在于它假设蛋白质的折叠类型是有限的,所以只有未知蛋白质和已知蛋白质结构相像的情况下,才有可能预测出未知的蛋白质结构。如未知蛋白质结构是现在还没有出现的结构类型时,这种方法将不能被应用。折叠识别方法的准确率介于同源模建和从头预测方法之间,目前广泛应用的软件系统主要THREADER,3D—Profile和Prospect等。
折叠识别技术目前还不是特别可靠的技术,只有在序列相同比率在30%一50%时,才有可能获得准确的估计。相关程序的结果也相当粗糙,大多数情况下难以作为同源性建模研究的依据,但是它是大多数蛋白质结构预测信息唯一可利用的工具。
3.4 从头预测方法(Ab Initio Prediction)
在既没有己知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法,即仅仅根据序列本身来预测其结构。Anfinsen提出的蛋白质的天然构象对应于自由能最低时的结构这一热力学假设,是从头预测方法预测蛋白质结构的理论基础,也由此揭开了用最优化思想预测蛋白质结构的序幕。从头预测主要包括两方面的工作:建立预测模型及模型的求解。从头预测可细分为:二级结构预测、超二级结构预测、蛋白质结构类型预测、蛋白质折叠模式预测、详细的蚤白质三级结构的直接预测等。
从理论上说,从头预测法是最为理想的蛋白质结构预测方法。它要求方法本身可以只根据蛋白质的氨基酸序列来预测蛋白质的二级结构和高级结构,但现在还不能完全实现这个要求。
从头预测方法一般由下列3个部分组成:
(1)由于一种蛋白质几何的表示方法表示和处理所有原子和溶剂环境的计算代价非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基。
(2)一种势函数及其参数通过对己知结构的蛋白质进行统计分析确定势函数中的各个参数。
(3)一种构象空间搜索技术。其中,势能函数的建立和构象空间搜索是从头预测方法的关键,也是目前制约从头预测方法进展的两个主要方面。
4 总结与展望
同源蛋白质结构预测已经有了相当长的历史。目前主链结构预测已经没有太大的困难,无规卷曲和侧链结构预测的方法上也己基本解决,但预测精度有待进一步提高。精度的提高依赖于模型优化方法的发展。
另一方面,同源结构预测的领域有待拓宽。结构预测中采用的许多种模式识别方法,都可以归入同源结构的范畴。由于长程相互作用在蛋白质折叠中的重要贡献,若不能将长程作用纳入预测框架,从一级结构预N---级结构、再从二级结构预测三级结构的逐级预测方法则不可能取得突破性进展。随着蛋白质结构数据的积累,人们发现许多结构都可以归并为数目有限的重复结构域。同源结构预测的第一步工作,就是不管是否有可辨认的序列同源性,都要正确的指认蛋白质的折叠方式。近年来,在利用序列模式和超二级结构模式提高二级结构预测精确度以及蛋白质折叠方式的自动指认等方面都出现了一些新方法。
CASP作为蛋白质结构预测研究领域的一项著名的评估蛋白质结构预测技术的竞赛,极大地推动着蛋白质结构预测技术的发展。在最初的CASP中,预测方法就被分为三类:比较建模方法、折叠识别方法和从头预测方法。然而由于预测的目标是预测精度而非预测方法的评比,从近两次CASP的结果看,有以下一些趋势[15-20]:
1)专家知识的参与可以提高预测精度。由于CASP的目的在于建立精确的模型,而不是单纯对方法的评价,所以在预测的过程中利用专家知识能够大大提高预测模型的精度,但是这样预测方法本身的依赖性增强了。从CASP3开始增加了全自动蛋白质结构预测方法评比CAFASP,目的是对 完全自动化的蛋白质结构预测方法进行评价。
2)各类方法的融合。尤其是从头预测方法,由于在预测中广泛采用已知知识,包括己知结构信息 和能量函数的建立,在CASP4中这类方法被更名为新折叠方法,结合己知知识的从头预测方法取得了可喜的进展。
3)序列比较方法的发展使同源模建方法的应用范围在拓宽,以前序列相似性关系不是很明确的蛋白质也能够用同源模建方法进行预测。
研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。蛋白质结构的研究,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。可以预见,随着新方法的不断涌现以及已有方法的有效结合,蛋白质结构预测研究将得到飞速的发展。
参考文献:
[1] Hardin C.,East-wood MP.,Prentiss M.Luthey·Schulten Z.Walyness PG:Folding Funnels:the key to robust
protein structure prediction.J Comput Chem.2002,23:138_146.
[2] Brooks,B.R.,Bruccoleri,R.E.,Olafson,B.D.,States,D.J.,Swaminathan,S,Karplus,M一”CHARMM:
A Program for Macromolecular Energy,Minimization,and Dynamics Calculations",JComp.Chem..1983(4).
[3] Narumi,T.,Susukita,R.,Ebisuzaki,T.,Mc Niven,G.,and Elmegreen,B..Molecular dynamics machine:
Special-purpose compmer for molecular dynamics simulations.Molecular Simulation.1999,21:401·415,.
[4] Eastwood MP.Iarclin c.Luthey—Sohulten Z.Wolynes PG:Evaluating protein structure prediction schemes using
energy landscape theory.IBM J Res Dcv.2001.45:475-497.
[5] 李林.蛋白质组学的进展.生物化学与生物物理进展.2000,27(3):227—231.
[6] Liwo A.Kazmierkiewicz R.Czaplewski C.Groth M.Oldziej S.Wawak RJ.Rackovsky S.Pincus MR.Scheraga
HA:A united.residue force field for oflattice protein structure simulations.Ofi百n of backbone hydrogen bonding
cooperativity in united-residue potential.J.Comput Chem-1998,19:259-276.
[7] 阎隆飞,孙之荣.蛋白质分子结构.北京:清华大学出版社,1999.
[8] 罗静初.基于Pc/kinux的分子生物信息数据库查询系统.科学通报.2000,45(9):1006—1008.
[9] 王彦力,来鲁华,韩玉真等.新型平均势函数在蛋白质反向折叠中的应用.生物物理学报 1995,11:67—74.
[10] 来鲁华等.蛋白质的结构预测与分子设计.北京:北京大学出版社,1993,49—61.
[11] LaVallie,Edward R McCoy,John M.Gene fusion expression systems in Escherichia coli Curt 0pin Biotech
1995.6:501.506.
[12] Sambrook J,FriNch E F,Maniatics T,著金冬雁,黎孟枫等译.分子克隆实验指南,第二版.北京:
科学出版社.1996:951-953,
[13]Niu Xiaohni,Li Nana,Shi Fang.Offlattice model in the prediction ofprotein 3D structurue.Wuhan University
Journal ofNatural Sciences(to appear).
[14] 赵善荣,唐斌,陈凯先.基于知识的蛋白质结构预测.生物化学与生物物理进展.1996,23(5):422—426.
[15] 刘次全等.量子生物学引论.科学出版社,19.
[16] Taylor W R,The classification ofamino acid conserve action.J.Theor Bi01.1986,1 19:205—218.
[17] M.v.伏尔更斯坦著(苏),刘克译.《现代物理学与生物学概论》.复旦大学出社.1985,62:137—139.
[18] 冯祖康,丁达夫.用于蛋白质分子设计的环区模建方法.生物化学与生物物理学报.1995,27(2):173—179
[19] Moutt J,at al—Critical Assessment ofMethods ofprotein Structure Prediction(cASP):Round 1 1 1. Proteins:
Structure,Function,and Genetics.1999,Suppl.3:2—6.
[20] Murzin AG,Progress in protein structure prediction.Nature Structural Biology.2001,8(2):l 10一112.
