
摘要:蛋白磷酸酯酶2C(PP2C)是蛋白磷酸酯酶中的一大类,广泛参与逆境信号的传递过程。本实验采用比较基因组学的方法,利用已知的拟南芥PP2C蛋白序列为检索序列,在全基因组水平上搜索毛果杨的PP2C基因的同源序列。最终确定了毛果杨45个PP2C候选基因。对同源序列作进一步的多序列联配、ESTs、MEME和系统发生表达分析。
关键词:毛果杨 比较基因组学 基因家族
Abstract: Protein phosphatase 2C (PP2C) is a protein phosphatase in a large class, the broad participation of adversity signal transmission process. In this study, we searched the homologous sequence from Populus trichocarpa protein database based on the complete genome by using comparative genomics methods and taking the Arabidopsis thaliana PP2C protein which has been isolated as the retrieval sequence. The results showed that 45 PP2C-like protein were identified from Populus trichocarpa. Further, we also analyzed the sequence alignment, MEME, EST and phylogenetic.
Keywords: Populus trichocarpa comparative genomics genne family
真核生物基因组中,编码蛋白磷脂酶的基因远远少于蛋白激酶,一般只有蛋白激酶基因数的四分之一至三分之一。在过去的研究中,蛋白质可逆磷酸化研究的重点主要针对蛋白激酶,不过,现在越来越多的研究显示,在信号转导中,蛋白磷酸酶和蛋白激酶同样重要[1]。
根据底物蛋白分子上去磷酸化的氨基酸残基的种类,PP主要分为三个家族:酪氨酸蛋白磷酸酶(protein tyrosine phosphatases, PTPs)、丝氨酸蛋白磷酸酶(protein serine phosphatases, PPPs)和双特异性蛋白磷酸酶(dual specificity phosphatases, PSPs)。根据酶对底物选择的特异性和对抑制剂的敏感程度,PPPs分为PP1和PP2。根据亚基的结构、二价离子的依赖性和底物特异性,PP2又可进一步分为PP2A、PP2B和PP2C[2]。大量研究表明,PP2A在进化过程中,高度保守且广泛表达。PP2B是由催化亚基A和调节亚基B构成的二聚体,也是唯一受Ca2+/CaM调节的丝氨酸蛋白磷酸酶,在介导Ca2+信号到细胞应答中发挥了重要作用。在所有PSPs的亚类中,只有PP2C没有亚基,是一种单体蛋白磷酸酶,活性依赖于Mg2+或Mn2+[4]。 PP2C与其他类型的PPP类蛋白磷酸酶相比,没有较明显的氨基酸序列同源性,但是蛋白质三维结构的相似性却揭示这些蛋白磷酸酶可能拥有相似的催化机制或相同的催化底物。PP2C类蛋白磷酸酶的一个重要的结构特征是在其催化区域内含有11个保守的结构亚区[3]。与哺乳动物PP2Cs相比,植物PP2Cs具有独特的结构模式,即植物中多数PP2C类磷酸酶C端具有保守的催化区域,而N端却是保守性不强、长度不一的延伸区域,在这些延伸区域内,含有与胞内信号相关的序列包括跨膜区域和激酶互作区域等,从而赋予了PP2C不同的功能[1]。
蛋白磷酸酶结构的复杂性是功能广泛性的基础。随着植物中越来越多的蛋白磷酸酶基因及其相关蛋白的分离、纯化与鉴定,以及基因特性与生理生化的深入研究,其众多的功能也陆续的被确定。迄今为止,蛋白磷酸酶已经被证实与植物的生长发育、信号转导、细胞周期、渗透胁迫以及活性氧胁迫等各种抗逆性反应相关联。如今,毛果杨的全基因组测序已经完成,数据库Populus trichocarpa v1.1(http://genome.jgi-psf.org/Poptrl_1/Poptrl_1.home.html)公布了全部序列。此后,在第一测序的基础上,进行了第二次补充测序。毛果杨全基因组最新数据已经包含在数据库Phytozome v7.0(http://www.phytozome.net/poplar)。本实验运用生物信息学方法对毛果杨的PP2C基因家族进行了初步分析鉴定[5]。
1 材料与方法
1.1数据库的搜索
根据拟南芥只已分离出的PP2C基因及其编码的蛋白质序列,在NCBI(美国国立生物技术信息中心,National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/)中通过blastp检索毛果杨无荣誉蛋白质数据库,E≤10-26的序列被认为是候选蛋白。利用Blastn程序将获得的候选蛋白与拟南芥的PP2C基因作进一步的匹配,采用默认参数,取E≤10-10的击中项为最终的候选蛋白,由相应的程序和索引文件提取所有符合条件的蛋白序列,构建列表。最后,从相应的数据库中下载最终确认的候选蛋白所对应的CDS序列[5]。
1.2序列联配分析与系统发生树的构建
利用Clustal W软件对搜索到的蛋白质序列进行多序列联配分析。以序列联配结果为基础,用MEGA3.1软件生成毛果杨PP2C蛋白的系统发生树。进化树的生成采用邻接法(Neighbor-joining method)。具体参数设置Test of Phylogeny: Bootstrap method; Replications: 1000; Method: Poisson model; Gaps: Pairwise deletion; Rates among Sites: Uniform rates。其它为默认参数[7]。
1.3 PP2C的motif分析
毛果杨PP2C类型基因的预测motif分析通过MEME(http://meme.nbcr.net/meme/cgi-bin/meme.cgi)在线分析[14]。
1.4 PP2C的EST分析
毛果杨PP2C基因家族的EST分析是通过NCBI,在Expressed sequence tags(EST)数据库中进行核苷酸比对,统计比对结果的组织类型的信息,进而与预测每个基因在不同组织类型中的表达情况。
2 结果与分析
2.1 毛果杨PP2C的挖掘
根据拟南芥PP2C基因编码的蛋白质检索出毛果杨PP2C基因家族蛋白,之后去冗余共得到45条毛果杨候选PP2C氨基酸序列,都具有PP2C保守区域。从表可知,毛果杨的PP2C基因分布于第1至18号染色体上,除四号染色体上无表达基因外,其余都有所表达。从基因结构看,毛果杨内含子数目在2-10之间变化,并不包含没有内含子的基因,说明植物的PP2C基因,进化过程中没有发生内含子的插入和缺失事件。详细信息如表1所示。
表1 毛果杨的PP2C候选蛋白及匹配EST的数量
Table 1 The PP2C candidate proteins and the hits number of EST in Populus trichocarpa
基因
| Gene | 位点 Locus | 蛋白质长度(aa) Protein length(aa) | 染色体 Chromosome | 匹配EST数量 The hits number of EST | 内含子 Intron |
| PPTP2C-1 | EEF02439 | 397 | LGX | 119 | 3 |
| PTPP2C-2 | EEE88105 | 385 | LGIX | 118 | 4 |
| PTPP2C-3 | EEE84651 | 392 | LGI | 0 | 3 |
| PTPP2C-4 | ERP66114 | 411 | LGI | 0 | 3 |
| PTPP2C-5 | EEF05571 | 334 | LGXV | 122 | 3 |
| PTPP2C-6 | EEE96607 | 370 | LGXII | 120 | 2 |
| PTPP2C-7 | EEE79084 | 546 | LGIII | 147 | 3 |
| PTPP2C-8 | ERP66113 | 302 | LGI | 0 | 3 |
| PTPP2C-9 | EEE93007 | 548 | LGVI | 120 | 2 |
| PTPP2C-10 | EEF03306 | 551 | LGXVIII | 109 | 3 |
| PTPP2C-11 | EEE82783 | 388 | LGI | 0 | 3 |
| PTPP2C-12 | ERP49654 | 578 | LGXVIII | 109 | 3 |
| PTPP2C-13 | ERP59565 | 229 | LGVI | 120 | 2 |
| PTPP2C-14 | EEF059 | 2 | LGXV | 122 | 3 |
| PTPP2C-15 | ERP52444 | 305 | LGXV | 122 | 3 |
| PTPP2C-16 | EEE97078 | 286 | LGXII | 120 | 2 |
| PTPP2C-17 | EEF05572 | 351 | LGXV | 122 | 8 |
| PTPP2C-18 | EEE96604 | 355 | LGXII | 120 | 8 |
| PTPP2C-19 | EEE94467 | 276 | LGV | 144 | 7 |
| PTPP2C-20 | ERP61405 | 273 | LGV | 144 | 7 |
| PTPP2C-21 | EEF02923 | 292 | LGXVIII | 109 | 8 |
| PTPP2C-22 | EEE92243 | 292 | LGVI | 120 | 8 |
| PTPP2C-23 | ERP49572 | 262 | LGXVIII | 109 | 8 |
| PTPP2C-24 | EEE832 | 392 | LGI | 0 | 3 |
| PTPP2C-25 | ERP54886 | 255 | LGXII | 120 | 2 |
| PTPP2C-26 | EEE87942 | 416 | LGIX | 118 | 3 |
| PTPP2C-27 | EEF02373 | 3 | LGX | 119 | 3 |
| PTPP2C-28 | EEF01832 | 397 | LGX | 119 | 5 |
| PTPP2C-29 | ERP65062 | 359 | LGI | 0 | 10 |
| PTPP2C-30 | EEE99269 | 397 | LGXIV | 131 | 3 |
| PTPP2C-31 | EEE97500 | 282 | LGXI | 159 | 4 |
| PTPP2C-32 | EEE88603 | 380 | LGVIII | 126 | 3 |
| PTPP2C-33 | ERP51920 | 284 | LGXV | 122 | 8 |
| PTPP2C-34 | ERP50526 | 313 | LGXVII | 1 | 4 |
| PTPP2C-35 | EEE79713 | 359 | LGIII | 147 | 10 |
| PTPP2C-36 | EEE92161 | 382 | LGVI | 120 | 3 |
| PTPP2C-37 | EEF04978 | 661 | LGXVI | 139 | 11 |
| PTPP2C-38 | EEF02837 | 380 | LGXVIII | 109 | 3 |
| PTPP2C-39 | EEF03484 | 358 | LGXVIII | 109 | 10 |
| PTPP2C-40 | EEE93202 | 358 | LGVI | 109 | 10 |
| PTPP2C-41 | EEE94216 | 381 | LGV | 144 | 3 |
| PTPP2C-42 | ERP53974 | 446 | LGXIII | 130 | 4 |
| PTPP2C-43 | EEE80809 | 3 | LGII | 112 | 3 |
| PTPP2C-44 | EEF03734 | 338 | LGXVIII | 109 | 4 |
| PTPP2C-45 | ERP58376 | 384 | LGVII | 117 | 4 |
2.2 毛果杨PP2C蛋白的系统发生分析
为了对毛果杨PP2C蛋白的功能和特性作进一步的了解,本实验对预测的毛果杨45个PP2C基因与已经鉴定出的拟南芥的所有蛋白序列的进化关系进行了评估。由进化树可以看出(图1):毛果杨 PP2C家族中可被分为7个亚族(A、B、C、D、E、F、G),其中A、D、E和G的 Bootstrap在85% 以上,基因PP2C-36为的分枝。7个亚族有45个基因形成 15个同源基因对(Bootstrap大于85%),其中15对的 Bootstrap为100%。基因结构分析显示,毛果杨PP2C基因的长度在0.2kb-0.7kb之间,内含子数量在2-10间,不同亚族间有较大变化(表1)。由此可见,内含子和非翻译区长度的变化也是引起基因结构变化的原因之一[15-16]。
图1 毛果杨PP2C基因家族蛋白的进化树
Picture 1 The phylogenetic tree of the protein of PP2C gene family in Populus trichocarpa
2.3 PP2C蛋白的基序分布
为了进一步了解毛果杨PP2C基因家族的系谱发生和功能,就毛果杨的45个PP2C蛋白序列进行了系统进化树的构建,并利用MEME在线软件对其motif进行了分析,结果表明:在构建的系统进化树中,毛果杨PP2C基因家族被分为7个亚族。在该motif分析中,在该家族找到45个motif。
MEME分析表明(表3):毛果杨的PP2C基因家族蛋白的结构域具有很强的保守性,由表3可知:毛果杨除PP2C-7、PP2C-12、PP2C-13、PP2C-14、PP2C-15、PP2C-24、PP2C-32、PP2C-44外,其余候选蛋白都存在1、2、3号基序(表2),且PP2C-7、PP2C-13、PP2C-14、PP2C-15、PP2C-24、PP2C-32缺失3号基序,PP2C-12缺失2号基序,PP2C-44缺失2号和3号基序。这就说明在进化过程中可能发生了基序的部分功能丧失突变。
表2 MEME分析提取的保守序列
Table 2 Conserved motifs retrieved by MEME analysis
基序编号
| Motif.No | 一致序列 Consensus sequence |
| 1 | GSTAVTALICGDHLIVANCGDCRAVLCRGGKAIPLSVDHKP |
| 2 | HFFGVYDGHGGAHVAEYCKENLHKNILEH |
| 3 | KQWVIAEPEIMFMKLTPEDEFLILACDGLWDVMSNQ |
Table 3 Motifs and distribution of PP2C candidate proteins in Populus trichocarpa
名称
| Name | 最低联合概率 combined p-value | 基序与排列顺序 motif and arrangement |
| PPTP2C-1 | 1.1e-81 | 2-1-3 |
| PTPP2C-2 | 1.5e-86 | 2-1-3 |
| PTPP2C-3 | 1.7e-85 | 2-1-3 |
| PTPP2C-4 | 1.9e-85 | 2-1-3 |
| PTPP2C-5 | 4.7e-72 | 2-1-3 |
| PTPP2C-6 | 1.6e-82 | 2-1-3 |
| PTPP2C-7 | 2.5e-56 | 2-1 |
| PTPP2C-8 | 2.9e-87 | 2-1-3 |
| PTPP2C-9 | 1.4e-86 | 2-1-3 |
| PTPP2C-10 | 6e-71 | 2-1-3 |
| PTPP2C-11 | 1.6e-86 | 2-1-3 |
| PTPP2C-12 | 3.2e-54 | 1-3 |
| PTPP2C-13 | 3.5e-57 | 2-1 |
| PTPP2C-14 | 4e-57 | 2-1 |
| PTPP2C-15 | 2.1e-57 | 2-1 |
| PTPP2C-16 | 8.3e-80 | 2-1-3 |
| PTPP2C-17 | 1.5e-80 | 2-1-3 |
| PTPP2C-18 | 9.4e-53 | 2-1-3 |
| PTPP2C-19 | 7.9e-34 | 2-1-3 |
| PTPP2C-20 | 2.8e-78 | 2-1-3 |
| PTPP2C-21 | 2.3e-78 | 2-1-3 |
| PTPP2C-22 | 2e-78 | 2-1-3 |
| PTPP2C-23 | 8.6e-78 | 2-1-3 |
| PTPP2C-24 | 3e-54 | 2-1 |
| PTPP2C-25 | 1.9e-72 | 2-1-3 |
| PTPP2C-26 | 4.7e-75 | 2-1-3 |
| PTPP2C-27 | 3.5e-66 | 2-1-3 |
| PTPP2C-28 | 9.1e-82 | 2-1-3 |
| PTPP2C-29 | 1.8e-73 | 2-1-3 |
| PTPP2C-30 | 3.2e-52 | 2-1-3 |
| PTPP2C-31 | 1.1e-75 | 2-1-3 |
| PTPP2C-32 | 4.7e-54 | 2-1 |
| PTPP2C-33 | 2.1e-56 | 2-1-3 |
| PTPP2C-34 | 2.2e-77 | 2-1-3 |
| PTPP2C-35 | 5.6e-75 | 2-1-3 |
| PTPP2C-36 | 1.3e-60 | 2-1-3 |
| PTPP2C-37 | 1.7e-74 | 2-1-3 |
| PTPP2C-38 | 1.9e-79 | 2-1-3 |
| PTPP2C-39 | 3.1e-76 | 2-1-3 |
| PTPP2C-40 | 4.5e-71 | 2-1-3 |
| PTPP2C-41 | 3e-59 | 2-1-3 |
| PTPP2C-42 | 2.6e-69 | 2-1-3 |
| PTPP2C-43 | 2.1e-72 | 2-1-3 |
| PTPP2C-44 | 4.1e-35 | 1 |
| PTPP2C-45 | 2.7e-70 | 2-1-3 |
EST(expressed sequence tags)是指来源于不同的组织的cDNA序列,不同的EST在发掘过程中面对整个cDNA文库的机会均等,所以通过BLAST在数据库中搜索EST,其数量的多少可以反映相应的基因在不同的组织中的表达情况,从而分析基因的组织特异性。本实验通过BLAST搜索对数据库中毛果杨中所有的候选PP2C蛋白序列进行EST分析,结果显示(表4),仅有三个组织被检测到,分别为芽、叶和茎。除此之外,仅有39个候选蛋白序列找到相应的表达部位,且候选蛋白序列在这些组织中呈现不均匀分布,具有特异性[8-14]。
表4 毛果杨PP2C基因家族基因的EST表达情况
Table 4 The distribution for the expressed ESTs of part PP2C genne in Populus trichocarpa
基因
| (gene) | 器官 (Apparatus) | ||
| 芽 (Bud) | 叶 (Leaf) | 茎 (Stem) | |
| PPTP2C-1 | √ | √ | √ |
| PTPP2C-2 | √ | √ | √ |
| PTPP2C-3 | |||
| PTPP2C-4 | |||
| PTPP2C-5 | √ | √ | |
| PTPP2C-6 | √ | √ | √ |
| PTPP2C-7 | √ | √ | √ |
| PTPP2C-8 | |||
| PTPP2C-9 | √ | √ | √ |
| PTPP2C-10 | √ | √ | √ |
| PTPP2C-11 | |||
| PTPP2C-12 | √ | √ | √ |
| PTPP2C-13 | √ | √ | √ |
| PTPP2C-14 | √ | √ | √ |
| PTPP2C-15 | √ | ||
| PTPP2C-16 | √ | √ | √ |
| PTPP2C-17 | √ | ||
| PTPP2C-18 | √ | √ | √ |
| PTPP2C-19 | √ | √ | |
| PTPP2C-20 | √ | √ | √ |
| PTPP2C-21 | √ | ||
| PTPP2C-22 | √ | √ | √ |
| PTPP2C-23 | √ | √ | √ |
| PTPP2C-24 | |||
| PTPP2C-25 | √ | √ | √ |
| PTPP2C-26 | √ | √ | √ |
| PTPP2C-27 | √ | √ | √ |
| PTPP2C-28 | √ | √ | √ |
| PTPP2C-29 | |||
| PTPP2C-30 | √ | √ | √ |
| PTPP2C-31 | √ | √ | √ |
| PTPP2C-32 | √ | √ | √ |
| PTPP2C-33 | √ | ||
| PTPP2C-34 | √ | √ | √ |
| PTPP2C-35 | √ | √ | √ |
| PTPP2C-36 | √ | √ | |
| PTPP2C-37 | √ | √ | √ |
| PTPP2C-38 | √ | ||
| PTPP2C-39 | √ | √ | √ |
| PTPP2C-40 | √ | √ | √ |
| PTPP2C-41 | √ | √ | √ |
| PTPP2C-42 | √ | √ | |
| PTPP2C-43 | √ | √ | √ |
| PTPP2C-44 | √ | √ | √ |
| PTPP2C-45 | √ | ||
毛果杨全基因组序列图谱的成功构建使我们得以有机会对该物种进行初步的比较基因组学的分析。杨属物种在历经全基因组复制,染色体重建,以及串联重复等一系列复杂事件后烟花形成我们现在所观察到的基因组。运用已知的杨属基因组序列,进一步开展杨属与其他不同植物间基因组的比较分析,将有效地促进这些物种基因组结构及基因家族进化的研究。
蛋白磷酸酶2C(PP2C)是植物中最大的蛋白磷酸酶家族,现在已经在拟南芥和水稻基因组中分别鉴定出80和78个成员,进化树分析分别将它们归为13个和11个亚族,基因组进化过程中发生的基因组和染色体片段的重复是导致该家族成员众多的主要因素。作为植物体内重要的信号分子,PP2C为数众多,且有保守的结构特征和理化性质。大量的PP2C基因已经被克隆到[17],目前研究主要集中在不同信号途径的角色,寻找PP2C的作用受体成为蛋白磷酸酶的研究热点。本实验的进行,为以后研究毛果杨PP2C基因家族的后续分析提供了理论依据。
实验结果中,毛果杨EST表达只出现在根、茎、芽中,对于为什么没出现在其他组织中,且根、茎、芽中有些未表达,有待作进一步的研究。
参考文献
[1] 薛彤彤. 棉花金属硫蛋白基因GhMT3α的功能分析及拟南芥与水稻蛋白质磷酸酶PP2C基因家族分析. 山东农业大学[D]. 2009.
[2] 胡晓丽,李德全. 植物蛋白磷酸酶2C(PP2C)及其在信号转导中的作用. 植物生理学通讯[J]. 2007, 43(3): 407-412.
[3] 阮海华. 植物PP2C蛋白磷酸酶负ABA 信号转导途径研究进展. 安徽农业科学[J], 2007, 35(3) : 652- 653.
[4] 周旺,亓晓艳,张应玖. 蛋白磷酸酶2C(PP2C) 的表达、纯化与催化活性. 吉林大学学报 (理学版)[J]. 2009, 47(1): 144-149.
[5] 谢小芳,陈志伟,吴为人. 植物PDR 蛋白家族的进化分析. 基因组学与应用生物学[J]. 2012, 31(6): 617-623.
[6] 谢小芳,黄勤怡,吴为人. 植物CH3基因家族的生物信息学分析. 基因组学与应用生物学[J]. 2010, 29(5): 829-837.
[7] 张贵慰,曾珏,郭维,罗琼. 水稻AT-hook基因家族生物信息学分析. 植物学报[J]. 2014, 49 (1): 49-62.
[8] 赵敬会,王瑞雪,李荣冲,梁晶龙等. 白菜SAUR基因家族的生物信息学分析. 中国农学通报[J]. 2012, 28(22): 130-137.
[9] 葛安静,张春华,董清华,赵密珍等. 草莓SBP基因家族生物信息学初步分析. 中国农学通报[J]. 2012, 28(13): 215-220.
[10] 曹雪,上官凌飞,于华平,杨光等. 葡萄SBP基因家族生物信息学分析. 基因组学与应用生物学[J]. 2010, 29(4): 791-798.
[11] 孙欣,王晨,房经贵,慕茜等. 葡萄GRAS基因家族生物信息学分析. 江西农业学报[J]. 2011, 23(7): 1-8.
[12] 丁安明,李凌,屈旭,孙亭亭等. 番茄PPR基因家族的鉴定与生物信息学分析. 遗传[J]. 2014, 36(1): 77-84
[13] 刘更森,慕茜,戴洪义,上官凌飞等. 苹果SBP基因家族生物信息学分析. 江西农业学报[J]. 2011, 23(12): 23-27.
[14] 陈娜娜,刘金义,蔡斌,等. 苹果SnRK2基因家族的鉴定和生物信息学分析. 中国农学通报[J]. 2013, 29(13): 120-127.
[15] 闵东红,薛飞洋,马亚男,陈明等. 谷子PP2C基因家族的特性. 作物学报[J]. 2013, 39(12): 2135-2144.
[16] 李建伏,郭茂祖. 系统发生树构建技术综述. 电子学报[J]. 2006, 11(2): 2047-2052.
[17] 胡学博,宋凤鸣,郑重. 高等植物中蛋白磷酸酶2C的结构与功能. 细胞生物学杂志 [J]. 2005, 27: 29-34
