13636351217
聯(lián)系人:錢(qián)經(jīng)理
電 話:13636351217
手 機(jī):13636351217,13636351073
地 址:上海市松江臨港科技城漢橋文化科技園B座
郵 編:201615
傳 真:021-64881400
郵 箱:2881726255@qq.com
阿儀網(wǎng)商鋪:http://www.app17.com/c60514/
手機(jī)網(wǎng)站:m.shhyswkj.com
閱讀次數(shù):4202 發(fā)布時(shí)間:2012/9/26 10:08:41
Andreas D. Baxevanis
Genome Technology Branch
National Human Genome Research Institute
National Institutes of Health
Bethesda. Mryland
David Landsman
National Center fro Biotechnology Informaiton
Computational Biology Branch
National Library of Medicine
National Institute of Health
Bethsda. Maryland
本書(shū)對(duì)數(shù)據(jù)庫(kù)的討論及前幾章中提供的信息都說(shuō)明,當(dāng)前各種公共數(shù)據(jù)庫(kù)中的序列信息的數(shù)量正急劇增加。與我們已知的核酸序列一樣,所有蛋白質(zhì)序列,無(wú)論是直接測(cè)得還是由核酸序列中的開(kāi)放閱讀框轉(zhuǎn)換而來(lái),都包含有決定其結(jié)構(gòu)功能的內(nèi)在信息?上в脤(shí)驗(yàn)方法獲取這些信息的速度遠(yuǎn)遠(yuǎn)趕不上單純序列數(shù)據(jù)產(chǎn)生的速度。象圓二色譜、旋光色散、X光晶體衍射和核磁共振都是確定結(jié)構(gòu)特征的強(qiáng)有力技術(shù),但它們的實(shí)現(xiàn)需要大量時(shí)間,并對(duì)技術(shù)和技巧都有很高要求。對(duì)比蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)庫(kù)的容量可知兩類(lèi)信息之間差距已十分明顯,到寫(xiě)這本書(shū)時(shí),有428,814個(gè)條目在冗余的蛋白質(zhì)序列庫(kù)(nr),而PDB庫(kù)中僅有5017個(gè)條目1。為縮小這一差距所做的嘗試都圍繞于“預(yù)測(cè)的方法”。這些序列條目能在缺少生物化學(xué)數(shù)據(jù)的情況下提供關(guān)于蛋白質(zhì)性質(zhì)的見(jiàn)解。 本章的焦點(diǎn)是從序列本身中獲取生物學(xué)發(fā)現(xiàn)的計(jì)算技術(shù),與前幾章中的技術(shù)不同之處于這些方法大多并不依賴(lài)于雙序列或多序列的比對(duì)。核酸序列所包含的四種核苷酸在化學(xué)上性質(zhì)相似(但不相同),與之不同的是,構(gòu)成蛋白質(zhì)的20種氨基酸殘基由于化學(xué)構(gòu)造上差別很大,因而在結(jié)構(gòu)和功能上存在更大多樣性。任一殘基對(duì)蛋白質(zhì)的整體物理性質(zhì)都會(huì)產(chǎn)生影響,因?yàn)檫@些殘基本身就是酸性或者堿性的。因而在蛋白質(zhì)結(jié)構(gòu)域中每種殘基對(duì)構(gòu)成不同類(lèi)型結(jié)構(gòu)都存在偏向。當(dāng)然,這些屬性就是生物化學(xué)的核心原理“序列決定構(gòu)象”的基礎(chǔ)(Anfinsen等,1961)。 在談及這種或那種預(yù)測(cè)技術(shù)之前要預(yù)先說(shuō)明的是,無(wú)論用哪種方法,這些結(jié)果都是預(yù)測(cè)。不同的方法,采用了不同的算法,可能產(chǎn)生相同或不同的結(jié)果。但有一點(diǎn)很重要:弄清楚某種方法的原理,而不是僅把算法當(dāng)作一個(gè)“黑箱”。因?yàn)橐环N方法可能對(duì)特定實(shí)例很合適,而對(duì)另一個(gè)則完全不對(duì)。雖然如此,存在一種強(qiáng)大合作的潛力:正確應(yīng)用這些預(yù)測(cè)技術(shù),參照以主要的生化數(shù)據(jù),就能提供有關(guān)蛋白質(zhì)結(jié)構(gòu)與功能的有價(jià)值信息。
基于組成的蛋白質(zhì)辨識(shí) 人們?cè)缫咽熘?0種氨基酸中每一個(gè)的物理和化學(xué)性質(zhì),并以此開(kāi)發(fā)了許多有用的計(jì)算工具用于確認(rèn)未知蛋白(或反過(guò)來(lái)分析已知蛋白)。其中的大部分可通過(guò)在Geneva大學(xué)醫(yī)院和Geneva大學(xué)的ExPASy服務(wù)(Appel等,1994)來(lái)獲得。ExPASy工具的應(yīng)用有兩個(gè)焦點(diǎn):既分析和確認(rèn)由二維凝膠電泳分離得到的未知蛋白,也預(yù)測(cè)已知蛋白的基本性質(zhì)。這些工具利用了SWISS-PROT數(shù)據(jù)庫(kù)中的有效注解來(lái)進(jìn)行預(yù)測(cè)。既然這類(lèi)計(jì)算對(duì)電泳分析有用,它們也能在其它實(shí)驗(yàn)領(lǐng)域中有所幫助,尤其是對(duì)色譜和沉降分析。在這里及以下內(nèi)容中,包含在ExPASy中的工具都會(huì)標(biāo)明,但由此而來(lái)的討論也包括了許多由其他小組開(kāi)發(fā)提供的有用程序。本章末列出了與本章中所提及的工具有關(guān)的因特網(wǎng)資源。 AACompIdent與AACompSim(ExPASy) 與把氨基酸序列在SWISS-PROT庫(kù)中搜索不同,AACompIdent工具利用未知蛋白的氨基酸組成去確認(rèn)具有相同組成的已知蛋白(Wilkins等,1996)。對(duì)于輸入部分,該程序需要蛋白質(zhì)的氨基酸組成,等電點(diǎn)pI和分子量(如果知道),正確的物種分類(lèi)及特別的關(guān)鍵詞。此外,用戶(hù)還需在六種氨基酸“組合”中作出選擇,這影響到分析如何進(jìn)行。例如,某種“組合”會(huì)把殘基Asp/Asn(D/N)和Gln/Glu(Q/E)組合成Asx(B)和Glx(Z);或者某種殘基會(huì)在分析中被完全除去。 對(duì)數(shù)據(jù)庫(kù)中的每一個(gè)蛋白序列,算法會(huì)對(duì)其氨基酸組成與所查詢(xún)的氨基酸組成的差異打分。由電子郵件返回的結(jié)果被組織成三級(jí)列表:張列表中的蛋白都基于特定的物種分類(lèi)而不考慮pI和分子量;第二張列表包含了不考慮物種分類(lèi)、pI和分子量的全體蛋白;第三張列表中的蛋白不但基于特定物種分類(lèi),并且將pI和分子量也考慮在內(nèi)。雖然計(jì)算所得結(jié)果各不相同,但零分表明了該序列與提出的組成完全相符。 AACompIdent的一個(gè)變種,AACompSim提供類(lèi)似的分析,但與前者以實(shí)驗(yàn)所得的氨基酸組成為依據(jù)進(jìn)行搜索不同,后者使用SWISS-PROT中的序列為依據(jù)(Wilkins等,1996)。利用Compute pI/MW(見(jiàn)下)所得的不同數(shù)值可以計(jì)算出理論等電點(diǎn)和分子量。有報(bào)道稱(chēng),氨基酸組成在物種之間是十分保守的(Cordwell等,1995),并且通過(guò)分析氨基酸的組成,研究者能從低于25%序列相似性的蛋白之間發(fā)現(xiàn)弱相似性(Hobohm和Sander,1995)。因此,在“傳統(tǒng)的”數(shù)據(jù)庫(kù)搜索基礎(chǔ)上輔以組成分析,能為蛋白質(zhì)之間關(guān)系提供更多見(jiàn)解。 PROPSEARCH PROPSEARCH與AACompSim一樣,也利用蛋白的氨基酸組成來(lái)檢測(cè)蛋白質(zhì)之間的微弱聯(lián)系。據(jù)該軟件開(kāi)發(fā)者稱(chēng)這一技術(shù)能輕易發(fā)現(xiàn)同一蛋白質(zhì)家族的成員(Hobohm和Sander,1995)。但這一技術(shù)比AACompSim更加強(qiáng)壯:它使用了144種不同的物化屬性來(lái)進(jìn)行分析,其中包括分子量、巨大殘基的含量、平均疏水性和平均電荷等。這些屬性的集合被稱(chēng)作“查詢(xún)向量”,并將其與數(shù)據(jù)庫(kù)(SWISS-PROT和PIR)中的每個(gè)序列預(yù)先計(jì)算好的向量進(jìn)行比較。擁有這樣一個(gè)預(yù)先計(jì)算好的“向量數(shù)據(jù)庫(kù)”大大節(jié)約了每次查詢(xún)所需的時(shí)間。 PROPSEARCH的Web服務(wù)所需的輸入是查詢(xún)序列本身,其輸出的一個(gè)實(shí)例為圖11.1。這里作為查詢(xún)序列的是人自身抗原NOR-90的序列。結(jié)果由距離分值分成幾段,該分值代表了查詢(xún)序列與由PROPSEARCH找到的新序列之間的相似性程度,從而屬于同一家族,因此通常表明具有相似的功能。10分或更低表明兩種蛋白相似的可能性大于87%。低于8.7分將相似性可信度提高到94%,而低于7.5分則達(dá)到99.6%。分析圖11.1的結(jié)果可見(jiàn),NOR-90與一些核轉(zhuǎn)錄因子、蛋白激酶、一個(gè)retinoblastoma結(jié)合蛋白、肌動(dòng)蛋白結(jié)合蛋白radixin和推測(cè)是一種GTP酶靶蛋白的RalBP1等蛋白相似。既然這些蛋白的功能各自不同,它們并不都是想要的結(jié)果;然而,其中許多是DNA的結(jié)合蛋白,這就暗示一種可能是在不同功能區(qū)中都采用了的十分相似的結(jié)構(gòu)域。至少進(jìn)行一次BLASTP搜索對(duì)確認(rèn)結(jié)果和識(shí)別關(guān)鍵性殘基是十分必要的。 Fragment search: OFF (POS1 and POS2 are begin and end of sequence)
Rank | ID | DIST | LEN2 | POS1 | POS2 | pI | DE |
1 | >p1;s18193 | 0.00 | 727 | 1 | 727 | 5.33 | autoantigen NOR-90 – human |
2 | ubf1_human | 1.36 | 764 | 1 | 764 | 5.62 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1) |
3 | ubf1_mouse | 1.40 | 765 | 1 | 765 | 5.55 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1). |
4 | ubf1_rat | 1.57 | 764 | 1 | 764 | 5.61 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1). |
5 | ubf1_xenla | 3.95 | 677 | 1 | 677 | 5.79 | NUCLEOLAR TRANSCRIPTION FACTOR 1 (UPSTREAM BINDING FACTOR 1) (UBF-1). |
6 | ubf2_xenla | 4.18 | 701 | 1 | 701 | 6.05 | NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPSTREAM BINDING FACTOR 2) (UBF-2). |
7 | >p1;s57552 | 7.72 | 606 | 1 | 606 | 6.63 | hypothetical protein YPR018w – yeast (Saccharomyces cerevisiae) |
8 | >p1;i50463 | 8.49 | 772 | 1 | 772 | 5.71 | protein kinase – chicken |
9 | >p1;h54024 | 8.83 | 768 | 1 | 768 | 5.27 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-3 – human |
10 | >p1;b54024 | 8.87 | 777 | 1 | 777 | 5.27 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-3 – human |
11 | >p1;g54024 | 8.90 | 766 | 1 | 766 | 5.21 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2-2 – human |
12 | >p1;a55817 | 9.00 | 783 | 1 | 783 | 5.19 | cyclin-dependent kinase 130-PITSLRE – mouse |
13 | >p1;f54024 | 9.11 | 777 | 1 | 777 | 5.30 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE beta 2-1 – human |
14 | >p1;e54024 | 9.11 | 779 | 1 | 779 | 5.42 | protein kinase (EC 2.7.1.37) cdc2-related PITSLRE alpha 2-1 – human |
15 | yaa5_schpo | 9.45 | 598 | 1 | 598 | 4.78 | HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 IN CHROMOSOME I. |
16 | >p1;s62449 | 9.45 | 598 | 1 | 598 | 4.78 | hypothetical protein SPAC22G7.05 – fission yeast (Schizosaccharomyces pombe) |
17 | >f1;i58390 | 9.45 | 920 | 1 | 920 | 5.00 | retinoblastoma binding protein 1 isoform I – human (fragment) |
18 | >p1;s63193 | 9.58 | 590 | 1 | 590 | 6.15 | hypothetical protein YNL227c – yeast (Saccharomyces cerevisiae) |
19 | ynw7_yeast | 9.58 | 590 | 1 | 590 | 6.15 | HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 INTERGENIC REGION. |
20 | >p1;s49634 | 9.74 | 899 | 1 | 899 | 4.79 | hypothetical protein YML093w – yeast (Saccharomyces cerevisiae) |
21 | ymj3_yeast | 9.74 | 899 | 1 | 899 | 4.79 | HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 INTERGENIC REGION. |
22 | radi_human | 9.76 | 583 | 1 | 583 | 6.33 | RADIXIN. |
23 | radi_pig | 9.81 | 583 | 1 | 583 | 6.21 | RADIXIN (MOESIN B). |
24 | >f1;i78883 | 9.83 | 866 | 1 | 866 | 4.77 | retinoblastoma binding protein 1 isoform II – human (fragment) |
25 | >p1;b42997 | 9.87 | 754 | 1 | 754 | 5.17 | retinoblastoma-associated protein 2 – human |
26 | >p1;a57467 | 9.91 | 647 | 1 | 647 | 5.74 | Ra1BP1 – rat |
圖11.1基于氨基酸組成的PROPSEARCH數(shù)據(jù)搜索。輸入序列是人自身抗原NOR-90。為簡(jiǎn)潔起見(jiàn),除去了解釋性材料和一張與整個(gè)目標(biāo)數(shù)據(jù)庫(kù)距離打分的直方圖。表中的列給出的是根據(jù)距離得分排列的順序、SWISS-PROT或PIR標(biāo)識(shí)、距離得分、查詢(xún)序列與該序列重疊的長(zhǎng)度、重疊的位置(從POS1到POS2)、計(jì)算出的pI,以及對(duì)該序列的描述。
MOWSE
分子量搜索(Molecular Weight Search,MOWSE)算法利用了通過(guò)質(zhì)譜(MS)技術(shù)獲得的信息(Pappin等,1993)。利用完整蛋白質(zhì)的分子量及其被特定蛋白酶消化后產(chǎn)物的分子量,一種未知蛋白質(zhì)能被準(zhǔn)確無(wú)誤地確認(rèn),給出由若干實(shí)驗(yàn)才能決定的結(jié)果。由于未知蛋白無(wú)需再全部或部分測(cè)序,這一方法顯著地減少了實(shí)驗(yàn)時(shí)間。
MOWSE的輸入是一個(gè)純文本文件,包含一張實(shí)驗(yàn)測(cè)定的肽段列表,分子量范圍在0.7到4.0Kda之間。計(jì)算過(guò)程基于在OWL非冗余蛋白質(zhì)序列庫(kù)(Akrigg等,1988)中包含的信息。打分基于在一定分子量范圍內(nèi)蛋白中一個(gè)片段分子量出現(xiàn)的次數(shù)。輸出的結(jié)果是得分*佳的30個(gè)蛋白的列表,包括它們?cè)贠WL中的條目名稱(chēng),相符肽段序列,和其它統(tǒng)計(jì)信息。模擬研究得出在使用5個(gè)或更少輸入肽段分子量時(shí),準(zhǔn)確率為99%。該搜索服務(wù)可通過(guò)向mowse@daresburg.ac.uk發(fā)送電子郵件實(shí)現(xiàn)。為獲得更多關(guān)于查詢(xún)格式的細(xì)節(jié)信息,可以相該地址發(fā)送電子郵件,并在消息正文中寫(xiě)上“help”這個(gè)詞。
基于序列的物理性質(zhì)
Compute pI/MW(ExPASy)
Compute pI/MW是計(jì)算輸入序列等電點(diǎn)和分子量的工具。對(duì)pI的確定基于早期研究中將蛋白質(zhì)從由中性到酸性變性條件下遷移過(guò)程中所獲得的pK值(Bjellqvist等,1993)。因此,該作者警告用戶(hù),對(duì)于堿性蛋白質(zhì)所得到的pI值可能不準(zhǔn)確。分子量的計(jì)算是把序列中每個(gè)氨基酸的同位素平均分子量加在一起,再加上一個(gè)水分子的分子量。用戶(hù)可以把序列整理為FASTA格式,或提供SWISS-PROT標(biāo)識(shí),或者是可確定的添加號(hào)。若用戶(hù)提供了序列,該工具會(huì)自動(dòng)計(jì)算全序列的pI和分子量;若用戶(hù)提供的是SWISS-PROT標(biāo)識(shí),程序會(huì)顯示該條目的描述和物種記錄;如果用戶(hù)給出了一段序列片段范圍則計(jì)算將在該片段上進(jìn)行,而不是針對(duì)整個(gè)序列。
PeptideMass(ExPASy)
PeptideMass工具針對(duì)肽段譜圖分析實(shí)驗(yàn),用于確定蛋白質(zhì)在與特定蛋白酶或化學(xué)試劑作用下的內(nèi)切產(chǎn)物(Wilkins等,1997)。通過(guò)PeptideMass可以預(yù)測(cè)水解結(jié)果的酶和試劑包括:胰蛋白酶(trypsin)、糜蛋白酶(chymotrypsin)、LysC、溴化氰、ArgC、AspN和GluC(雙羧酯或磷酸酯)。半胱氨酸和甲硫氨酸可在計(jì)算產(chǎn)物肽段前加以修飾。若用戶(hù)提供的是SWISS-PROT標(biāo)識(shí),而不單是一段序列,PeptideMass還能利用SWISS-PROT庫(kù)中標(biāo)注中的信息協(xié)助計(jì)算。例如,除去信號(hào)序列,后在剪切之前引入已知的翻譯后修飾。輸出結(jié)果會(huì)列成表格,其中將給出輸入蛋白的pI和分子量,然后是SWISS-PROT中關(guān)于變種的分子量、位點(diǎn)、修飾后變種的信息,*后是肽片段的序列。
TGREASE
TGREASE是沿蛋白質(zhì)序列長(zhǎng)度計(jì)算其疏水性的工具(Kyte和Doolittle,1982)。“疏水性”是每種氨基酸所固有的特性,即氨基酸遠(yuǎn)離周?chē)肿,將自己包埋進(jìn)蛋白質(zhì)核心的相對(duì)趨勢(shì)。這一趨勢(shì)加上空間立體條件和其它一些因素決定了一個(gè)蛋白質(zhì)*終折疊成的三維空間構(gòu)象。因此,TGREASE對(duì)預(yù)測(cè)球狀蛋白內(nèi)埋區(qū)以及判斷待定跨膜序列等方面都有應(yīng)用。TGREASE屬于FASTA系列程序,可以從Virginia大學(xué)得到,并可以作為獨(dú)立程序在Mac或Dos系統(tǒng)下運(yùn)行。
疏水性預(yù)測(cè)的方法依賴(lài)于疏水性的衡量尺度,這里每個(gè)氨基酸根據(jù)其一系列的物理特性(例如,溶解性、跨越水-汽相時(shí)產(chǎn)生的自由能等),被賦予一個(gè)數(shù)值以代表其疏水性。具有更高正值的氨基酸具有更大的疏水性;而具有更低負(fù)值的氨基酸則更加親水。然后,沿蛋白質(zhì)序列的疏水性的移動(dòng)平均值,或者稱(chēng)為親/疏水性索引被計(jì)算出來(lái)。窗口的寬度是可以調(diào)整的,這里推薦7-11殘基的窗口寬度以獲得更多的信息和更少的噪聲干擾。*后把結(jié)果繪制成親/疏水性-殘基序號(hào)的線形圖。圖11.2是用人的白介素8受體B作的TGREASE圖。圖中的峰與實(shí)際跨膜區(qū)段的位置雖然不完全一致,但二者的相關(guān)性已經(jīng)相當(dāng)明顯。要注意的是這種方法不僅僅預(yù)測(cè)跨膜區(qū)段,還預(yù)測(cè)所有的疏水區(qū)。專(zhuān)門(mén)用來(lái)檢測(cè)跨膜區(qū)段的方法將在后面專(zhuān)門(mén)討論。
………………
圖11.2 TGREASE所作Kytt-Doolittle疏水性分析結(jié)果。輸入序列是人高親和白介素8受體B,使用了缺省的窗口長(zhǎng)度。圖中底部的粗橫線是手工加上的,代表了SWISS-PROT中標(biāo)注的該蛋白1L-8R-B(P25025)中的七個(gè)跨膜區(qū)段的位置。
SAPS
蛋白質(zhì)序列統(tǒng)計(jì)分析方法(Statistical Analysis of Protein Sequences,SAPS)用于給出關(guān)于查詢(xún)序列的廣泛的統(tǒng)計(jì)信息(Brendel等,1992)。當(dāng)一個(gè)蛋白序列通過(guò)Web界面提交給SAPS,服務(wù)器會(huì)返回一大堆關(guān)于該蛋白的物理和化學(xué)性質(zhì)的信息,這些都是僅僅通過(guò)序列本身就可以分析出來(lái)的。輸出的結(jié)果*先是按種類(lèi)對(duì)氨基酸的統(tǒng)計(jì)計(jì)數(shù);隨后是電荷分布分析,包括正/負(fù)電荷聚集區(qū)的位置,高度帶電和不帶電區(qū)段,以及電荷的傳播和模式等;*后的部分給出了高疏水性和跨膜區(qū)段、重復(fù)結(jié)構(gòu)和多重態(tài)、以及周期性分析。
二級(jí)結(jié)構(gòu)和折疊類(lèi)
分析新發(fā)現(xiàn)的蛋白質(zhì)或未知功能的基因產(chǎn)物的步是用BLAST或其它工具在公共數(shù)據(jù)庫(kù)中進(jìn)行相似性搜索。然而,這種搜索可能無(wú)法找到一個(gè)已知相符蛋白質(zhì);即使能得到一個(gè)統(tǒng)計(jì)顯著的相符蛋白質(zhì),也很可能在序列記錄中沒(méi)有任何關(guān)于其二級(jí)結(jié)構(gòu)的信息,而這些信息對(duì)設(shè)計(jì)合理的生物化學(xué)實(shí)驗(yàn)十分重要。雖然沒(méi)有“已知”的信息,但仍然有辦法預(yù)測(cè)出序列折疊成a 螺旋或b 疊片的性能。這些方法依賴(lài)于對(duì)大量實(shí)驗(yàn)測(cè)定三維結(jié)構(gòu)的蛋白質(zhì)的觀察和分析。
在討論技術(shù)本身之前,有必要簡(jiǎn)要回顧一下二級(jí)結(jié)構(gòu)和折疊類(lèi)。前面已經(jīng)提及,許多氨基酸具有疏水性的側(cè)鏈,而主鏈或稱(chēng)骨架是親水性的。肽鏈通過(guò)構(gòu)成離散的二級(jí)結(jié)構(gòu)元件來(lái)平衡這兩種相反的作用力。這在1951年由Linus Pauling及其合作者提出(Pauling和Corey,1951)。a 螺旋是一種用來(lái)起瓶塞的鉆頭一樣的螺旋結(jié)構(gòu),由主鏈構(gòu)成螺旋的骨架,側(cè)鏈從螺旋向外伸出。骨架是通過(guò)各個(gè)氨基酸上的CO基團(tuán)與C末端方向+4個(gè)氨基酸(n+4)的NH基團(tuán)形成的氫鍵來(lái)保持穩(wěn)定的,這樣就形成了結(jié)實(shí)的棒狀結(jié)構(gòu)。一些殘基比其它殘基更易形成a 螺旋:丙氨酸、谷氨酸、亮氨酸和甲硫氨酸經(jīng)常在a 螺旋中出現(xiàn);而脯氨酸、甘氨酸、酪氨酸和絲氨酸一般不會(huì)在a 螺旋中出現(xiàn)。通常認(rèn)為,脯氨酸是螺旋破壞者,這是由于它的環(huán)狀結(jié)構(gòu)中斷了n+4氫鍵的形成。
與a 螺旋相比,b 鏈?zhǔn)且环N更舒展的結(jié)構(gòu)。與a 螺旋在二級(jí)結(jié)構(gòu)單元內(nèi)部形成氫鍵不同,氫鍵形成于兩條或多條相鄰的b 鏈之間。多條b 鏈間通過(guò)這種氫鍵作用使整個(gè)結(jié)構(gòu)形成b 折疊片。這些折疊片可以是平行的,也可以是反平行的,這取決于各b 鏈中N末端和C末端的取向。一個(gè)b 折疊片的變種是b 拐角,多肽鏈構(gòu)成發(fā)卡狀的急轉(zhuǎn)彎,并形成反平行b 疊片。
1976年Levitt和Chothia根據(jù)蛋白質(zhì)中二級(jí)結(jié)構(gòu)元件的排列順序提出了一個(gè)分類(lèi)系統(tǒng)(Levitt和Chothia,1976)。非常簡(jiǎn)單,一個(gè)a 結(jié)構(gòu)基本由a 螺旋構(gòu)成;一個(gè)b 結(jié)構(gòu)主要由b 鏈構(gòu)成。肌紅蛋白是典型的全由a 螺旋構(gòu)成的蛋白質(zhì),因而屬于a 結(jié)構(gòu)類(lèi)(Takano,1977)。質(zhì)體藍(lán)素是b 類(lèi)的好例子,其中8條b 鏈間的氫鍵的模式形成了一個(gè)緊密的桶狀結(jié)構(gòu)(Guss和Freeman,1983)。組合折疊類(lèi)a /b 是由交替出現(xiàn)的b 鏈和a 螺旋構(gòu)成的。黃素氧還蛋白是a /b 蛋白的一個(gè)好例子,其中b 鏈構(gòu)成中心的b 折疊,周?chē)蒩 螺旋包圍(Burnett等,1974)。
在以下討論中,有一個(gè)術(shù)語(yǔ)會(huì)經(jīng)常出現(xiàn):神經(jīng)網(wǎng)絡(luò)。它賦予了計(jì)算過(guò)程“學(xué)習(xí)”的能力以模仿人類(lèi)的學(xué)習(xí),而大多數(shù)計(jì)算程序都延著固有的順序盲目地執(zhí)行指令。神經(jīng)網(wǎng)絡(luò)技術(shù)在如二級(jí)結(jié)構(gòu)預(yù)測(cè)這種分析模式和趨勢(shì)的問(wèn)題中有廣泛的應(yīng)用。每個(gè)神經(jīng)網(wǎng)絡(luò)都包含一個(gè)輸入層和一個(gè)輸出層。在二級(jí)結(jié)構(gòu)預(yù)測(cè)的應(yīng)用中,輸入層是序列帶來(lái)的信息,輸出層是每個(gè)特定氨基酸形成特定二級(jí)結(jié)構(gòu)的幾率。實(shí)際的學(xué)習(xí)過(guò)程發(fā)生在位于輸入層和輸出層之間的一個(gè)或多個(gè)隱含層中。學(xué)習(xí)的實(shí)現(xiàn)需要向網(wǎng)絡(luò)提供一組訓(xùn)練數(shù)據(jù)集。這里,一組合適的訓(xùn)練集是已測(cè)出結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫(kù)。網(wǎng)絡(luò)會(huì)加工這些信息去尋找氨基酸序列與之以特定上下文關(guān)系所形成結(jié)構(gòu)之間的微弱聯(lián)系。神經(jīng)網(wǎng)絡(luò)在二級(jí)結(jié)構(gòu)預(yù)測(cè)中的應(yīng)用更具體的討論可見(jiàn)Kneller等(1990)的文獻(xiàn)。
nnpredict
nnpredict算法使用了一個(gè)雙層、前饋神經(jīng)網(wǎng)絡(luò)去給每個(gè)氨基酸分配預(yù)測(cè)的類(lèi)型(Kneller等,1990)。在預(yù)測(cè)時(shí),服務(wù)器使用FASTA格式的文件,其中有單字符或三字符的序列以及蛋白質(zhì)的折疊類(lèi)(a 、b 或a /b )。殘基被分為幾類(lèi),如a 螺旋(H)、b 鏈(E)或其它(-)。若對(duì)給定殘基未給出預(yù)測(cè),則會(huì)標(biāo)上問(wèn)號(hào)(?),這說(shuō)明無(wú)法作出可信的分配。若沒(méi)有關(guān)于折疊類(lèi)的信息,預(yù)測(cè)也能在不定折疊類(lèi)的情況下進(jìn)行,而且這是缺省的工作方式。據(jù)報(bào)道,對(duì)于*佳實(shí)例的預(yù)測(cè),nnpredict的準(zhǔn)確率超過(guò)了65%。
序列通過(guò)向nnpredict@celeste.ucsf.edu發(fā)送電子郵件提交給nnpredict。以黃素氧還蛋白為例,電子郵件的格式為:
option: a/b
>flavodoxin - Anacystis nidulans
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASKLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
Option行標(biāo)明蛋白質(zhì)的折疊類(lèi):n用于無(wú)折疊類(lèi),a為a ,b為b ,a/b為a /b 。每個(gè)電子郵件只能提交一個(gè)序列,服務(wù)器返回的結(jié)果經(jīng)整理見(jiàn)圖11.3。
PredictProtein
PredictProtein(Rost等,1994)在預(yù)測(cè)中應(yīng)用了略為不同的方法。首先,蛋白質(zhì)序列被作為查詢(xún)序列在SWISS-PROT庫(kù)中搜索相似的序列。當(dāng)相似的序列被找到后,一個(gè)名為MaxHom的算法被用來(lái)進(jìn)行一次基于特征簡(jiǎn)圖的多序列比對(duì)(Sander和Schneider,1991)。MaxHom用迭代的方法來(lái)構(gòu)造比對(duì):當(dāng)次搜索SWISS-PROT后,所有找到的序列與查詢(xún)序列進(jìn)行比對(duì),并構(gòu)造出一個(gè)比對(duì)后的特征簡(jiǎn)圖。然后,這個(gè)簡(jiǎn)圖又被用來(lái)在SWISS-PROT中搜索新的相似序列。由MaxHom產(chǎn)生的多序列比對(duì)隨后被置入一個(gè)神經(jīng)網(wǎng)絡(luò),用一套稱(chēng)為PHD(Rost,1996)的方法進(jìn)行預(yù)測(cè)。PHD這一套二級(jí)結(jié)構(gòu)預(yù)測(cè)方法不僅僅給每個(gè)殘基分配一個(gè)二級(jí)結(jié)構(gòu)類(lèi)型,它還對(duì)序列上每個(gè)位點(diǎn)的預(yù)測(cè)可信度給予統(tǒng)計(jì)分析。該方法的平均準(zhǔn)確率超過(guò)72%:*佳殘基預(yù)測(cè)準(zhǔn)確率達(dá)90%以上。
向predictprotein@embl-hcidelberg.de發(fā)送的輸入序列電子郵件為以下格式:
Joe Buzzcut
National Human Genome Research Institute, NIH
buzzcut@baldguys.org
# flavodoxin - Anacystis nidulans
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
在名字、從屬關(guān)系和地址行之后,#號(hào)向服務(wù)器表明隨后是一個(gè)單字符序列。序列基本上是FASTA格式,但其中不允許有空格,傳統(tǒng)的>號(hào)由#號(hào)代替,序列之后也不許有其它東西。
輸出結(jié)果內(nèi)容很多并包含大量有關(guān)信息。其中有MaxHom搜索結(jié)果,并包括多序列比對(duì)的結(jié)果,它可以用于例如基于特征簡(jiǎn)圖的搜索或物種譜系分析等 進(jìn)一步研究。如果 提交的序列在PDB庫(kù)中有已知同源蛋白,則其PDB標(biāo)識(shí)號(hào)也會(huì)輸出返回。隨后是方法本身信息,*后是實(shí)際預(yù)測(cè)結(jié)果。與nnpredict不同,PredictProtein還返回每個(gè)位點(diǎn)的“預(yù)測(cè)可信度索引”,范圍從0到9,9具有的可信度,也就是說(shuō)該位點(diǎn)所分配的二級(jí)結(jié)構(gòu)類(lèi)型是正確的。對(duì)特定例子該程序返回的預(yù)測(cè)結(jié)果,以及與其它預(yù)測(cè)方法的比較整理后見(jiàn)圖11.3。
SSPRED
與PredictProtein相似,EMBL的二級(jí)結(jié)構(gòu)預(yù)測(cè)方法(Mehta等,1995)先在數(shù)據(jù)庫(kù)中搜索序列的相似蛋白,構(gòu)建多序列比對(duì),然后進(jìn)行預(yù)測(cè)。該方法在比對(duì)時(shí),特別注意非保守位點(diǎn)的替換,并利用比對(duì)結(jié)果作為初始預(yù)測(cè)結(jié)果。初始預(yù)測(cè)結(jié)果經(jīng)過(guò)濾除去那些簡(jiǎn)單不合理的結(jié)果單元,這些包括長(zhǎng)度不合理的單元或是一種結(jié)構(gòu)類(lèi)型打斷了一串另一種類(lèi)型(例如,預(yù)測(cè)為HHHEHH,就應(yīng)變成HHHHHH)。所有的a 螺旋應(yīng)至少4個(gè)殘基長(zhǎng),所有的b 鏈應(yīng)至少3個(gè)殘基長(zhǎng)。
同樣以黃素氧還蛋白為例,以下是提交給sspred@embl-heidelberg.de的作SSPRED搜索郵件格式:
SEQUENCE
TITLE flavodoxin - Anacystis nidulans
BLOSUM 62
ALIGN 50
INDEL 10
Z_SCORE 7.0
SEQ
AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIY
DDLDSVNFQGEKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVG
LAIDEDNQPDLTKNRIKTWVSQLKSEFGL
END
關(guān)鍵詞SEQUENCE提示服務(wù)器有一個(gè)單序列被提交上來(lái)。TITLE行允許包含關(guān)于輸入序列的一些評(píng)語(yǔ),并會(huì)在返回結(jié)果中出現(xiàn)。BLOSUM 62命令指示SSPRED在作比對(duì)打分時(shí)使用該矩陣。PAM矩陣和BLOSUM矩陣都是可以選用的,而缺省的設(shè)置是PAM 120。INDEL 10是空位罰分值。用戶(hù)可以不管這一行而讓SSPRED基于所用的打分矩陣預(yù)測(cè)合適的缺省值。降低INDEL值使空位插入更可接受。ALIGN 50指示服務(wù)器用50個(gè)*佳比對(duì)進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。Z_SCORE 7.0行允許用戶(hù)提高或降低BLITZ搜索的敏感度。*后,序列要加上特定起始關(guān)鍵字SEQ和結(jié)束關(guān)鍵字END。
在分析結(jié)束后,用戶(hù)將得到包含一系列輸出文件的電子郵件。其中包括在預(yù)測(cè)中用到的BLITZ產(chǎn)生的多序列比對(duì)的結(jié)果,以及*終預(yù)測(cè)的結(jié)果。電子郵件中還包括*初預(yù)測(cè)結(jié)果及過(guò)濾后的結(jié)果。前面的序列實(shí)例的SSPRED*終預(yù)測(cè)結(jié)果與其它方法的比較見(jiàn)圖11.3。
SOPMA
位于法國(guó)里昂的CNRS(Centre National de la Recherche Scientifique)使用獨(dú)特的方法進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)。它不是用一種,而是5種相互獨(dú)立的方法進(jìn)行預(yù)測(cè),并將結(jié)果匯集整理成一個(gè)“一致預(yù)測(cè)結(jié)果”。這5種方法包括:Garnier-Gibrat-Robson(GOR)方法(Garnier等,1996)、Levin同源預(yù)測(cè)方法(Levin等,1986)、雙重預(yù)測(cè)方法(Deléage和Roux,1987)、作為前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法(Geourjon和Déleage,1995)。簡(jiǎn)單的說(shuō),SOPMA這種自?xún)?yōu)化的預(yù)測(cè)方法建立了已知二級(jí)結(jié)構(gòu)序列的次級(jí)數(shù)據(jù)庫(kù),庫(kù)中的每個(gè)蛋白質(zhì)都經(jīng)過(guò)基于相似性的二級(jí)結(jié)構(gòu)預(yù)測(cè)。然后用次級(jí)庫(kù)中得到的信息去對(duì)查詢(xún)序列進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。
使用這種方法可以將序列本身作為電子郵件提交給deleage@ibcp.fr,用SOPMA作為郵件主題,或使用SOPMA的Web界面。各種作為一部分的預(yù)測(cè)結(jié)果以及“一致預(yù)測(cè)結(jié)果”都見(jiàn)圖11.3。
各種方法的比較
根據(jù)圖11.3,可以明顯看出所有的方法在預(yù)測(cè)二級(jí)結(jié)構(gòu)方面完成得相對(duì)較好,但都不完美。選黃素氧還蛋白作為測(cè)試的實(shí)例是因?yàn)樗哂邢鄬?duì)復(fù)雜的結(jié)構(gòu):它有6個(gè)a 螺旋和5個(gè)b 疊片,屬于a /b 折疊類(lèi)。有一些分配結(jié)果在各種方法中是一致的:如各種方法都很好地找到了b 1、b 3、b 4和a 5。但有些方法把某些二級(jí)結(jié)構(gòu)單元徹底漏掉了(如nnpredict漏掉了a 2、a 3和a 4),而有些預(yù)測(cè)方法所得的結(jié)果缺乏生物學(xué)意義(如雙重預(yù)測(cè)方法在b 4,認(rèn)為螺旋、疊片和拐角一個(gè)接一個(gè)交替出現(xiàn))。PredictProtein方法正確找到了所有的二級(jí)結(jié)構(gòu)單元,并在多處準(zhǔn)確識(shí)別了二級(jí)結(jié)構(gòu)元件的長(zhǎng)度,在整體上預(yù)測(cè)表現(xiàn)*佳。但并非說(shuō)明其它方法沒(méi)用或不夠好,因?yàn)樵谄渌承⿲?shí)例中無(wú)疑會(huì)有某種方法表現(xiàn)更好。由于沒(méi)有更多信息可用來(lái)判斷哪種方法,是把序列提交給多個(gè)服務(wù)器,將結(jié)果匯集整理,通過(guò)人為的比較來(lái)判斷哪些預(yù)測(cè)結(jié)果成立或不成立。(在圖11.3中顯示的CNRS一致序列就屬于這一類(lèi)嘗試,但一致序列也不是完全正確的。)雖然這一方法中并未包含某種對(duì)預(yù)測(cè)方法失敗保險(xiǎn)的預(yù)測(cè),但由這些預(yù)測(cè)的確增強(qiáng)了結(jié)果了可信度。
………………
圖11.3各種二級(jí)結(jié)構(gòu)預(yù)測(cè)方法的比較。作為查詢(xún)序列的黃素氧還蛋白(flavodoxin)是一種a /b 蛋白,其序列排在行。對(duì)每個(gè)預(yù)測(cè),H代表a 螺旋,E代表b 鏈,T代表b 拐角,其它位點(diǎn)都認(rèn)為是無(wú)規(guī)卷曲。所采用的各預(yù)測(cè)方法列在其結(jié)果的左側(cè),其詳細(xì)描述見(jiàn)正文。圖的*下一行是由PDB文件中的黃素氧還蛋白(1OFV,Smith等,1983)所得的二級(jí)結(jié)構(gòu)分布。
特殊結(jié)構(gòu)或結(jié)構(gòu)特征
就象a 螺旋和b 疊片的位置可以較為準(zhǔn)確地預(yù)測(cè)出來(lái),其它特定的結(jié)構(gòu)或結(jié)構(gòu)特征,如卷曲螺旋和跨膜區(qū)也可以預(yù)測(cè)出來(lái)。但這類(lèi)預(yù)測(cè)的方法沒(méi)有二級(jí)結(jié)構(gòu)預(yù)測(cè)方法多,主要是由于這些結(jié)構(gòu)或結(jié)構(gòu)特征的折疊規(guī)律尚不十分清楚。盡管如此,若查詢(xún)序列在已知結(jié)構(gòu)數(shù)據(jù)庫(kù)中能搜索到相似蛋白,則預(yù)測(cè)的準(zhǔn)確度可能很高。
卷曲螺旋
COILS算法將查詢(xún)序列在一個(gè)由已知包含卷曲螺旋蛋白結(jié)構(gòu)的數(shù)據(jù)庫(kù)中進(jìn)行搜索(Lupas等,1991)。程序也將查詢(xún)序列與包含球狀蛋白序列的PDB次級(jí)庫(kù)進(jìn)行比較,并根據(jù)兩個(gè)庫(kù)搜索得分的不同決定輸入序列形成卷曲螺旋的概率。COILS可以下載到VAX/VMS系統(tǒng)上使用,通過(guò)簡(jiǎn)單的Web界面使用則更方便。
程序要求序列數(shù)據(jù)為GCG或FASTA格式,一次可以提交一條或多條序列。除了序列,用戶(hù)還能在兩種打分矩陣中選擇一種:MTK是根據(jù)肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩陣;或MTIDK,是根據(jù)肌球蛋白、原肌球蛋白、中間纖維類(lèi)蛋白Ⅰ-Ⅴ、橋粒蛋白和角蛋白得到的打分矩陣。程序作者引述了兩種矩陣的適用特點(diǎn):MTK更適合檢測(cè)雙鏈結(jié)構(gòu),而MTIDK適合其它情形。用戶(hù)還能啟動(dòng)一個(gè)選項(xiàng)給予每個(gè)卷曲a和d位置上殘基(通常為親水性)相同的權(quán)重。如果COILS在無(wú)權(quán)重和有權(quán)重情況下得到的結(jié)果相差很大,則可能表明存在正錯(cuò)誤。程序的作者警告說(shuō)COILS是用來(lái)檢測(cè)與溶液接觸的左手性卷曲螺旋的,對(duì)于包埋的或右手性卷曲螺旋則可能檢測(cè)不到。若一個(gè)序列被提交到服務(wù)器,程序會(huì)整理出一張預(yù)測(cè)結(jié)果圖,顯示沿著序列各個(gè)部分形成卷曲螺旋的傾向性。
一個(gè)基于Macintoshi系統(tǒng)的應(yīng)用程序――MacStripe使用了Lupas的COILS的預(yù)測(cè)方法,能輸出較簡(jiǎn)單的預(yù)測(cè)結(jié)果(Knight,1994)。MacStripe要求輸入文件為FASTA、PIR或其它普遍文件格式,并象COILS一樣產(chǎn)生一個(gè)圖形文件,包含形成卷曲螺旋的概率,以及用柱狀圖顯示七連體重復(fù)模式的連續(xù)性。下面是以GCN4為例,由MacStripe得到的統(tǒng)計(jì)結(jié)果文件的一部分。
89 89 L 5 a 0.760448 0.000047
90 90 D 5 b 0.760448 0.000047
91 91 D 5 c 0.760448 0.000047
92 92 A 5 d 0.760448 0.000047
94 94 V 5 f 0.760448 0.000047
95 95 E 5 g 0.760448 0.000047
96 96 S 5 a 0.760448 0.000047
97 97 F 5 b 0.760448 0.000047
98 98 F 5 c 0.774300 0.000058
99 99 S 5 d 0.812161 0.000101
100 100 S 5 e 0.812161 0.000101
101 101 S 5 f 0.812161 0.000101
102 102 T 5 g 0.812161 0.000101
從左到右各列分別代表殘基序號(hào)(顯示兩次)、氨基酸種類(lèi)、七連體框架和殘基在七連體中的位置(a-b-c-d-e-f-g)、Lupas得分和Lupas概率。在這個(gè)例子中,注意到第五列,我們能清楚看出七連體重復(fù)模式。分析整個(gè)GCN4序列結(jié)果表明七連體重復(fù)模式得到良好維持,只在某些區(qū)域有所分離。既然統(tǒng)計(jì)結(jié)果不能忽略不計(jì),其結(jié)果能更容易地說(shuō)明七連體重復(fù)模式是否明顯存在。也可以從COILS得到類(lèi)似的輸出,但不是通過(guò)Web服務(wù)器,而是在合適的Unix計(jì)算機(jī)上安裝一個(gè)C語(yǔ)言編寫(xiě)的程序,這一步對(duì)許多用戶(hù)而言是做不到的。
跨膜區(qū)域
前面曾討論過(guò)的Kyte-Doolittle的TGREASE算法能有效地檢測(cè)高疏水性的區(qū)域,但它并不是專(zhuān)門(mén)用來(lái)預(yù)測(cè)跨膜區(qū)域的,因?yàn)樗苄郧驙畹鞍椎膬?nèi)埋區(qū)也是基本為疏水性的。我們先來(lái)看一種專(zhuān)門(mén)預(yù)測(cè)跨膜區(qū)的方法:TMpred,它依靠一個(gè)跨膜蛋白數(shù)據(jù)庫(kù)Tmbase(Hofmann和Stoffel,1993)。Tmbase來(lái)源與Swiss-Prot庫(kù),并包含了每個(gè)序列的一些附加信息:跨膜結(jié)構(gòu)區(qū)域的數(shù)量、跨膜結(jié)構(gòu)域的位置及其側(cè)翼序列的情況。Tmpred利用這些信息并與若干加權(quán)矩陣結(jié)合來(lái)進(jìn)行預(yù)測(cè)。 2 possible models considered, only significant TM segments used -----> STRONGLY prefered model: N-terminus outside 7 strong transmembrane helices, total score : 14196 # from to length score orientation 1 55 74 (20) 2707 o-i 2 83 104 (22) 1914 i-o 3 120 141 (22) 1451 o-i 4 166 184 (19) 2155 i-o 5 212 235 (24) 2530 o-i 6 255 276 (22) 2140 i-o 7 299 319 (21) 1299 o-i ------> alternative model 7 strong transmembrane helices, total score : 11974 # from to length score orientation 1 47 69 (23) 2494 i-o 2 84 104 (21) 1407 o-i 3 123 141 (19) 1352 i-o 4 166 185 (20) 1904 o-i 5 219 236 (18) 2453 i-o 6 252 274 (23) 1386 o-i 7 300 319 (20) 915 i-o 每種建議的模型都指出格區(qū)段起始和終止位點(diǎn),及其相對(duì)膜的取向(由內(nèi)到外inside-to-outside,或由外到內(nèi)outside-to-inside)。算法作者恰當(dāng)?shù)刂赋鲞@些模型基于假設(shè)全部跨膜區(qū)在預(yù)測(cè)中都被找到。因而這些模型應(yīng)被看作是從該方法所得數(shù)據(jù)的角度出發(fā)所的結(jié)果。
第二種預(yù)測(cè)方法是TMAP,它類(lèi)似于SSPRED采用了多序列比對(duì)來(lái)提高預(yù)測(cè)的準(zhǔn)確性(Persson和Argos,1994)。同樣一G蛋白耦合受體為例,提交給tmap@embl-heidelberg.de的查詢(xún)序列的格式如下所示:
SEQUENCE
TITLE G protein-coupled receptor
BLOSUM 62
INDEL 10
ALIGN 50
Z_SCORE 4
SEQ
MSGESMNFSDVFDSSEDYFVSVNTSYYSVDSEMLLCSLQEVRQFSRLFVPIAYSLICVFGLLGNILVVIT
FAFYKKARSMTLVYLLNMAIADLLFVLTLPFWAVSHATGAWVFSNATCKLLKGIYAINFNCGMLLLTCIS
END
TITLE行使返回給用戶(hù)的結(jié)果易于辨認(rèn)。BLOSUM 62命令指定用BLITZ在Swiss-Prot中搜索是采用的得分矩陣,這里可以采用任一可得的BLOSUM或PAM矩陣;INDEL、ALIGN和Z_SCORE等命令與前面在SSPRED服務(wù)中所述含義完全一樣。序列本身前面標(biāo)上起始關(guān)鍵字SEQ,*后標(biāo)上END關(guān)鍵字。無(wú)論用電子郵件還是用Web界面,結(jié)果都由電子郵件返回。返回的內(nèi)容包括BLITZ為查詢(xún)序列所作的多序列比對(duì)結(jié)果,關(guān)于各跨膜區(qū)位置的預(yù)測(cè),以及給出結(jié)果圖示的PostScript文件。對(duì)G蛋白耦合受體的TMAP預(yù)測(cè)結(jié)果如下:
PREDICTED TRANSMEMBRANE SEGMENTS FOR PROTEIN G protein-coupled receptor
TM 1: 46 - 74 (29)
TM 2: 82 - 108 (27)
TM 3: 117 - 145 (29)
TM 4: 159 - 187 (29)
TM 5: 212 - 240 (29)
TM 6: 251 - 276 (26)
輸出結(jié)果格式很簡(jiǎn)單,給出了跨膜區(qū)段序號(hào)、各區(qū)段起始和終止位置,括號(hào)中是區(qū)段長(zhǎng)度。顯然,對(duì)于同一個(gè)蛋白兩個(gè)不同的方法給出了有顯著不同的預(yù)測(cè)結(jié)果。Tmpred預(yù)測(cè)了七個(gè)跨膜區(qū)段,而TMAP的預(yù)測(cè)是六個(gè),并且兩組區(qū)段邊緣相互重疊。在Swiss_Prot中,這個(gè)序列條目中注明了七個(gè)跨膜區(qū)段(43-69、79-99、115-136、155-175、206-233、250-274以及299-316)。相比之下,Tmpred的結(jié)果更符合這些位置,在多數(shù)情況下,Tmpred的預(yù)測(cè)比實(shí)際情況會(huì)稍微長(zhǎng)一些和偏一些。對(duì)TMAP也是一樣,只是TMAP把*后一個(gè)區(qū)段整個(gè)漏掉了。用戶(hù)可能設(shè)想TMAP預(yù)測(cè)比Tmpred好,但這里同樣要強(qiáng)調(diào)利用多種方法進(jìn)行預(yù)測(cè)這一慣用策略,然后再手工審查其結(jié)果。
信號(hào)肽
丹麥技術(shù)大學(xué)的生物序列分析中心開(kāi)發(fā)了SignalP這個(gè)強(qiáng)大的信號(hào)肽及其剪切位點(diǎn)檢測(cè)工具(Nielsen等,1997)。該算法基于神經(jīng)網(wǎng)絡(luò)方法,用已知信號(hào)序列的革蘭氏陰性原核生物、革蘭氏陽(yáng)性原核生物及真核生物的序列分別作為訓(xùn)練集。SignalP預(yù)測(cè)的是分泌型信號(hào)肽,而不是那些參與細(xì)胞內(nèi)信號(hào)傳遞的蛋白。
人類(lèi)胰島素樣生長(zhǎng)因子IB前體(生長(zhǎng)調(diào)節(jié)素C,P05019),具有已知剪切位點(diǎn),通過(guò)Web界面提交給SignalP加以分析。預(yù)測(cè)采用的是真核訓(xùn)練集,分析結(jié)果如下:
************************* SignalP predictions *************************
Using networks trained on euk data
>IGF-IB length = 195
# pos aa C S Y
46 A 0.365 0.823 0.495
47 T 0.450 0.654 0.577
48 A 0.176 0.564 0.369
49 G 0.925 0.205 0.855
50 P 0.815 0.163 0.376
< Is the sequence a signal peptide?
# Measure Position Value Cutoff Conclusion
max. C 49 0.925 0.37 Yes
max. Y 49 0.855 0.34 Yes
max. S 37 0.973 0.88 Yes
mean S 1-48 0.550 0.48 Yes
# Most likely cleavage site between pos. 48 and 49: ATA-GP
輸出結(jié)果的部分中,標(biāo)記為C的列是剪切位點(diǎn)打分。在剪切點(diǎn)的C末端位點(diǎn)上得分。標(biāo)記為S的列是信號(hào)肽打分,位于剪切點(diǎn)之前的位點(diǎn)得分高而剪切點(diǎn)之后的位點(diǎn)得分低。非分泌型蛋白的N末端的S得分也較低。*后的Y列給出綜合剪切點(diǎn)打分,這個(gè)幾何平均分值指出哪個(gè)位點(diǎn)具有高C分值同時(shí)又是S分值由高轉(zhuǎn)低。輸出文件的結(jié)尾提出問(wèn)題“這個(gè)序列是信號(hào)肽嗎?”,然后根據(jù)統(tǒng)計(jì)推斷出*可能的剪切點(diǎn)。在Swiss_Prot中對(duì)該蛋白的注解是:成熟肽鏈起始與49位,正是SignalP預(yù)測(cè)的*可能的剪切點(diǎn)。
非球形區(qū)域
第七章中已經(jīng)討論過(guò)用SEG程序在進(jìn)行數(shù)據(jù)庫(kù)搜索前遮蓋低復(fù)雜性區(qū)段。用同樣的算法,通過(guò)調(diào)節(jié)觸發(fā)窗口長(zhǎng)度、觸發(fā)復(fù)雜性K1和延伸復(fù)雜性K2,可以用來(lái)檢測(cè)待定的非球形區(qū)域。受到命令“seq sequence.txt 45 3.4 3.75”后,SEG將使用長(zhǎng)于缺省值12的窗口,因而能檢測(cè)到長(zhǎng)非球形結(jié)構(gòu)域。一個(gè)用SEG檢測(cè)非球形區(qū)域的例子見(jiàn)圖11.4。
1-307 | MAGAIASRMSFSSLKRKQPKTFTVRIVTMD AEMEFNCEMKWKGKDLFDLVCRTLGLRETW FEGLQYTIKDTVAWLKMDKKVLDHDVSKEE PVTFHFLAKFYPENAEEELVQEITQHLFFL QVKKQILDEKIYCPPEASVLLASYAVQAKY GDYDPSVHKRGFLAQEELLPKRVINLYQMT PEMWEERITAWYAEHRGRARDEAEMEYLKI AQDLEMYGVNYFAIRNKKGTELLLGVDALG LHIYDPENRLTPKISFPWNEIRNISYSDKE FTIKPLDKKIDVFKFNSSKLRVNKLTLQLC IGNHDLF | |
mrrrkadslevqqmkaqareekarkqmerq rlarekqmreeaertrdelerrllqmkeea tmanealmrseetadllaekaqiteeeakl laqkaaeaeqemqrikatairteeekrlme qkvleaevlalkmaeeserrakeadqlkqd lqeareaerrakqklleiatk | 308-478 | |
479-496 | PTYPPMNPIPAPLPPDIP | |
sfnligdslsfdfkdtdmkrlsmeiekekv eymekskhlqeqlnelkteiealklkeret aldihnensdrggsskhntikkltlqsak s | 497-587 | |
588-595 | RVAFFEEL |
圖11.4 SEG預(yù)測(cè)的neurofibromatosis type 2基因(L11353)產(chǎn)物蛋白的非球形區(qū)域。非球形區(qū)以小寫(xiě)列于左邊。數(shù)字標(biāo)出每一塊的殘基位置。
三級(jí)結(jié)構(gòu)
結(jié)構(gòu)預(yù)測(cè)大概是基于蛋白質(zhì)序列數(shù)據(jù)的預(yù)測(cè)方法中*復(fù)雜和技術(shù)上*困難的。從序列充分和準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的重要性扎根于這樣的認(rèn)識(shí):既然序列可以決定構(gòu)象,那么多個(gè)序列就可能決定同一個(gè)構(gòu)象。根據(jù)結(jié)構(gòu)比序列更加保守,以及蛋白質(zhì)骨架motif數(shù)量有限的想法(Chothia和Lesk,1986;Chothia,1992)說(shuō)明,沒(méi)必要僅僅從傳統(tǒng)的基于序列比對(duì)的方法去尋找蛋白之間的相似性。序列與結(jié)構(gòu)的關(guān)系問(wèn)題的根源在于“蛋白質(zhì)折疊過(guò)程”的問(wèn)題,這是近來(lái)一些綜述的討論的焦點(diǎn)(Bryant和Altschul,1995;Eisenhaber等,1995;Lemer等,1995)。
當(dāng)前*健壯的結(jié)構(gòu)預(yù)測(cè)方法是同源建模,或稱(chēng)“threading”方法(Bryant和Lawrence,1993;Fetrow和Bryant,1993;Jones和Thornton,1996)。這種方法將未知結(jié)構(gòu)的蛋白質(zhì)序列“穿過(guò)”由X光晶體衍射或NMR核磁共振得到的已知結(jié)構(gòu)靶蛋白的結(jié)構(gòu)坐標(biāo)。對(duì)于序列-結(jié)構(gòu)的每次定位,算出殘基間相互作用力和疏水作用大小。這些熱力學(xué)計(jì)算的目的是找出未知結(jié)構(gòu)序列在目標(biāo)結(jié)構(gòu)上的能量*優(yōu)和構(gòu)象*穩(wěn)固的比對(duì)位置。這樣的程序要作密集的計(jì)算,要求計(jì)算機(jī)硬件至少是一臺(tái)強(qiáng)大的UNIX工作站,以及要有特定計(jì)算機(jī)語(yǔ)言的知識(shí)。
雖然threading這樣的技術(shù)很強(qiáng)大,但是它對(duì)硬件和專(zhuān)門(mén)知識(shí)的要求可能仍是大多生物學(xué)家應(yīng)用的障礙。為了降低應(yīng)用的障礙,一些易于使用的程序被開(kāi)發(fā)出來(lái)為大多生物學(xué)家提供了比較蛋白建模的良好初步近似。(許多商業(yè)蛋白結(jié)構(gòu)分析工具,如WHAT-IF和LOOK都提供了更深入功能,但這里只限于討論基于Web的免費(fèi)軟件)。
一個(gè)序列結(jié)構(gòu)自動(dòng)比較程序SWISS-MODEL(Peitsch,1996)是一個(gè)兩步過(guò)程。“First Approach”模式,先用來(lái)決定序列能否被建模:當(dāng)序列提交到程序,SWISS-MODEL將其與晶體圖像數(shù)據(jù)庫(kù)(ExPdb)比較,只有當(dāng)ExPdb中存在與序列充分相似的同源序列時(shí)才被接受建模。如果這一步在ExPdb中找到了一個(gè)或多個(gè)合適的同源物,則會(huì)建立一個(gè)原子模型,并將結(jié)果由電子郵件返回。這些結(jié)果能再提交給SWISS-MODEL的“Optimize”模式,利用其它知識(shí)如生物化學(xué)信息,來(lái)修正提出的結(jié)構(gòu)模型。
第二種方法是將結(jié)構(gòu)與結(jié)構(gòu)相對(duì)比,與第七章中討論的向量比對(duì)搜索工具(VAST)原理類(lèi)似。DALI算法在兩個(gè)蛋白之間尋找相似的接觸模式,并進(jìn)行優(yōu)化后返回*佳的結(jié)構(gòu)比對(duì)方案(Holm和Sander,1993)。這種方法允許任意長(zhǎng)度的空隙,并允許比對(duì)片段間互相交替連接,這樣就幫助了在整體上不相似的不同蛋白之間尋找相似的特定結(jié)構(gòu)域。DALI的Web界面能對(duì)PDB中已有的兩組坐標(biāo)進(jìn)行分析,也可由用戶(hù)提交一組PDB格式的坐標(biāo)。其中,若兩個(gè)目標(biāo)蛋白都在PDB庫(kù)中,則可以在一個(gè)“全對(duì)全”的PDB比較數(shù)據(jù)庫(kù)FSSP蛋白折疊類(lèi)家族結(jié)構(gòu)比對(duì)庫(kù)(Holm和Sander,1994)中找到已經(jīng)算好的結(jié)構(gòu)近鄰。
*后一種方法是對(duì)前面的PHD二級(jí)結(jié)構(gòu)預(yù)測(cè)方法的補(bǔ)充。TOPITS方法(Rost,1995)中,PDB庫(kù)里的蛋白質(zhì)三維結(jié)構(gòu)被翻譯成二級(jí)結(jié)構(gòu)的一維“字符串”,構(gòu)成搜索的數(shù)據(jù)庫(kù)。然后,查詢(xún)序列的二級(jí)結(jié)構(gòu)和溶液可及性通過(guò)PHD方法被確定,結(jié)果也存成一維字符串。查詢(xún)和目標(biāo)字符串再以動(dòng)態(tài)規(guī)劃方法進(jìn)行比對(duì),并以此作出結(jié)構(gòu)預(yù)測(cè)。返回的結(jié)果是分級(jí)列表,給出查詢(xún)序列與目標(biāo)結(jié)構(gòu)的*優(yōu)比對(duì),以及對(duì)預(yù)測(cè)準(zhǔn)確性概率的評(píng)估(Z score)。
這里討論的三種方法都是相當(dāng)基本的方法,因此它們能較快返回結(jié)果并可以使用Web類(lèi)界面。但它們?cè)跈z測(cè)結(jié)構(gòu)間弱相似性中所表現(xiàn)出的水平令人信服。“threading”方法的*終潛力可以通過(guò)*近的Aslomar會(huì)議來(lái)說(shuō)明,許多工作小組應(yīng)邀參與了一個(gè)“結(jié)構(gòu)預(yù)測(cè)競(jìng)賽”(Lemer等,1995)。這個(gè)為前面提到的更復(fù)雜技術(shù)開(kāi)設(shè)的實(shí)驗(yàn)場(chǎng)表明,雖然蛋白質(zhì)折疊問(wèn)題還遠(yuǎn)未得到解決,大量蛋白質(zhì)折疊類(lèi)還是能得到可靠的辨識(shí)。盡管不同方法在競(jìng)賽中各有所長(zhǎng),競(jìng)賽主持人還是建議采用“一致相似方法”的結(jié)構(gòu),就象前面二級(jí)結(jié)構(gòu)預(yù)測(cè)中給出例子的方法一樣。這些發(fā)展成果所處時(shí)代時(shí)機(jī)十分令人振奮,緊隨著人類(lèi)基因組計(jì)劃的同時(shí)發(fā)展,為研究者在辨識(shí)出假定基因產(chǎn)物后能預(yù)測(cè)結(jié)構(gòu)與功能的關(guān)系提供了強(qiáng)有力的工具。
第11章中涉及內(nèi)容的因特網(wǎng)資源
PREDICTION OF PHYSICAL PROPERTIES | |
Compute pI/MW | http://expasy.hcuge.ch/ch2d/pi.tool.thml |
PeptideMass | http://expasy.hcuge.ch/sprot/peptide-mass.html |
TGREASE | ftp://ftp.vrgnia.edu/pub/fasta/ |
SAPS | http://ulrec2.unil.ch/software/SAPS_form.html |
| |
PREDICTION OF PROTEIN IDENTITY BASED ON COMPOSITION | |
AACompIdent | http://expasy.hcuge.ch/ch2d/aacompi.html |
AACompSim | http://expasy.hcuge.ch/ch2d/aacsim.html |
PROPSEARCH | http://www.embl-heidelerg.de/prs.html |
| |
PREDICTION OF SECONDARY STRUCTURE AND FOLDING CLASS | |
nnpredict | http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html |
PredictProtein | http://www.embl-heidelerg.de/predictprotein/ |
SOPMA | http://www.ibcp.fr/predict.html |
SSPRED | http://www.embl-heidelberg.de/sspred/sspred_info.html |
| |
PREDICTION OF SPECIALIZED STRUCTURES OR FEATURES | |
COILS | http://ulrec3.unil.ch/software/COILS_form.html |
MacStrip | http://www.wi.mit.edu/matsudaira/macstripe.html |
SignalP | http://www.cbs.dtu.dk/services/SignalP/ |
TMAP | http://ww.embl-heidelberg.de/tmap/tmap_sin.html |
TMpred | http://ulrec3.unil.ch/software/TMPRED_form.htm |
| |
STRUCTURE PREDICTION | |
Bryant-Lawrence | ftp://ncbi.nlm.nih.gov/pub/pkb |
DALI | http://www.embl-heidelberg.de/dali/dali.html |
FSSP | http://www.embl-heidelberg.de/dali/fssp/fssp.html |
SWISS-MODEL | http://expasy.hcuge.ch/swissmod/SWISS-MODEL.html |
TOPITS | http://www.embl-heidelberg.de/predictprotein/phd_help.html |
參考文獻(xiàn)
Akrigg, D., Bleasby, A. J., Dix, N. I. M., Findlay, J. B. C., North, A. C. T., Parry-Smith, D., Wootton, J. C., Blundell, T. I., Gardner, S. P., Hayes, F., Stemberg, M. J. E., Thornton, J. M., Tickle, I. J., and Murray-Rust, P. (1988). A protein sequence/structure database. Nature 335, 745-746.
Anfinsen, C. B., Haber, E., Sela, M., and White, F. H. (1961). The kinetics of the formation of native ribonuclease during oxidation of the reduced poly peptide chain. Proc. Natl. Acad. Sci. U.S.A. 47, 1309-1314.
Appel, R. D., Bairoch, A., and Hochstrasser, D. F. (1994). A new generation of information retrieval tools for biologists: The example of the ExPASy WWW server. Trends Biochem. Sci. 19, 258-260.
Bjellqvist, B., Hughes, G., Pasquali, C., Paquet, N., Ravier, F., Sanchez, J.-C., Frutiger, S., and Hochstrasser, D. F. (1993). The focusing positions of polypeptides in immobilized pH gradients can be predicted from their amino acid sequence. Electrophoresis 14, 1023-1031.
Brendel, V., Bucher, P., Nourbakhsh, I., Blasidell, B. E., and Karlin, S. (1992). Methods and algorithms for statistical analysis of protein sequences. Proc. Natl. Acad. Sci. U.S.A. 89, 2001-2006.
Bryant, S. H., and Altschul, S. F. (1995). Statistics of sequence-structure threading. Curr. Opin. Struct. Biol. 5, 236-244.
Bryant, S. H., and Lawrence, C. E. (1993). An empircal energy function for threading protein sequence through the folding motif. Proteins 16, 92-112.
Burnett, R. M., Darling, G. D., Kendall, D. S., LeQuesne, M. E., Mayhew, S. G., Smith, W. W., and Ludwig, M. L. (1974). The structure of the oxidized form of clostridial favodoxin at 1.9 Å resolution. J. Biol. Chem. 249, 4383-4392.
Chothia, C. (1992). One thousand families for the molecular biologist. Nature 357, 543-544.
Chothia, C., and Lesk, A. M. (1986). The relation between the divergence of sequence and structure in proteins. EMBO J. 5, 823-826.
Cordwell, S. J., Wilkins, M. R., Cerpa-Poljak, A., Gooley, A. A., Duncan, M., Williams, K. L., and Humphery-Smith, I. (1995). Cross-species identification of proteins separated by two-dimensional eletrophoresis using matrix-assisted laser desorption ionization/time-of-flight mass spectrometry and amino acid compsition. Electrophoresis 16, 438-443.
Deléage, G., and Roux, B. (1987). An algorithm for protein secondary structure based on class prediction. Protein Eng. 1, 289-294.
Eisenhaber, F., Persson, B., and Argos, P. (1995). Protein structure prediction: Recognition of primary, secondary, and tertiary structural features from amino acid sequence. Crit. Rev. Biochem. Mol. Biol. 30, 1-94.
Fetrow, J. S, and Bryant, S. H. (1993). New programs for protein tertiary structure prediction. Bio/Technology 11, 479-484.
Garnier, J., Gibrat, J.-F., and Robson, B (1996). GOR method for predicting protein secondary structure from amino acid sequence. Methods Enzymol. 266, 540-553.
Geourjon, C., and Déleage, G. (1995). SOPMA: Significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. CABIOS 11, 681-684.
Guss, J. M., and Freeman, H. C. (1983). Structure of oxidezd poplar plastocyanin at 1.6 Å resolution. J. Mol. Biol. 169, 521-563.
Hobohm, U., and Sander, C. (1995). A sequence property approach to searching protein databases. J. Mol. Biol. 251, 390-399.
Hofmann, K., and Stoffel, W. (1993). TMbase: A database of membrane-spanning protein segments. Biol. Chem. Hoppe-Scyler 347, 166.
Holm, L., and Sander, C. (1993). Protein structure comparison by alignment of distance matrices. J. Mol. Biol. 233, 123-138.
Holm, L., and Sander, C. (1994). The FSSP database of structurally-aligned protein fold families. Nucl. Acids Res. 22, 3600-3609.
Jones, D. T., and Thornton, J. M. (1996). Poteintial energy functions for threading. Curr. Opin. Struct. Biol. 6, 210-216.
Kneller, D. G., Cohen, F. E., and Langridge, R. (1990). Improvemnets in protein secondary structure prediction by and enhanced neural network. J. Mol. Biol. 214, 171-182.
Knight, A. E. (1994). The Diversity of Myosin-like Proteins (Cambridge: Cambridge University Press).
Kyte, J., and Doolittle, R. F. (1982). A simple method for displaying the hydropathic charactor of a protein. J. Mol. Biol. 157, 105-132.
Lemer, C. M., Rooman, M. J., and Wodak, S. J. (1995). Protein structure prediction by threading methods: Evaluation of current techniques. Protein 23, 337-355.
Levin, J. M., Robson, B., and Garnier, J. (1986). An algorithm for secondary structure determination in proteins based on sequence similarity. FEBS Lett. 205, 303-308.
Levitt, M., and Chothia, C. (1976). Structural patterns in globular proteins. Nature 261, 552-558.
Lupas, A., Van Dyke, M., and Stock, J. (1991). Predicting coiled coils from protein sequences. Science 252, 1162-1164.
Mehta, P. K., Heringa, J., and Argos, P. (1995). A simple and fast approach to prediction of protein secondary structure from multiply aligned sequences with accuracy above 70%. Protein Sci. 4, 2517-2525.
Nielsen, H., Engelbrecht, J., Brunak, S., and von Heijne, G. (1997). Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites. Protein Eng. 10, 1-6.
Papin, D. J. C., Hojrup, P., and Bleasby, A. J. (1993). Rapid identification of proteins by peptide-mass fingeprinting. Curr. Biol. 3, 327-332.
Pauling, L., and Corey, R. B. (1951). The structure of proteins: Tow hydrogen-bonded helical configurations of the polypeptide chain. Proc. Natl. Acad. Sci. U.S.A. 37, 205-211.
Peitsch, M. C. (1996). ProMod and SWISS-MODEL: Internet-based tools for automated comparative protein modelling. Biochem. Soc. Trans. 24, 274-279.
Person, B., and Argos, P. (1994). Prediction of transmembrane segments in proteins utilising multiple sequence alignments. J. Mol. Biol. 237, 182-192.
Rost, B. (1995). TOPITS: Threading one-dimensional predictions into three-dimensional structures. In Third International Conference on Intelligent Systems for Molecular Biology. C. Rawlings, D. Clark, R. Altman, L. Hunter, T. Lengauer, and S. Wodak, Eds. (Cambridge: AAA1 Press), pp. 314-321.
Rost, B. (1996). PHD: Predicting one-dimensional protein structure by profile-based neural networks. Methods Enzymol. 266, 525-539.
Rost, B., Sander, C., and Schneider, R. (1994). PHD: A mail server for protein secondary structure prediction. CABIOS 10, 53-60.
Sander, C., and Schneider, R. (1991). Proteins 9, 56-68.
Smith, W. W., Pattridge, K. A., Ludwig, M. L., Petsko, G. A., Tsernoglou, D., Tanaka, M., and Yasunobu, K. T. (1983). Structure of oxidized flavodoxin from Anacystis nidulans. J. Mol. Biol. 165, 737-755.
Takano, T. (1977). Structure of myoglobin refined at 2.0 ?. J. Mol. Biol. 110, 537-584.
Wilkins, M. R., Pasquali, C., Appel, R. D., Ou, K., Golaz, O., Sanchez, J.-C., Yan, J. X., Gooley, A. A., Hughes, G., Humphery-Smith, I., Williams, K. L., and Hochstrasser, D. F. (1996). From proteins to proteomes: Large-scale protein identification by two-dimensional electrophoresis and amino acid analysis. Bio/Techniques 14, 61-65.
Wilkins, M. R., Lindskog, I., Gasteiger, E., Bairoch, A., Sanchez, J.-C., Hochstrasser, D. F., and Appel, R. D. (1997). Detailed peptide characterization using PeptideMass, a World Wide Web accessible tool. Electrophoresis 18, 403-408.
上海很遠(yuǎn)生物科技發(fā)展有限公司是主要經(jīng)營(yíng)的產(chǎn)品有elisa試劑盒,生物試劑,標(biāo)準(zhǔn)品,血清,抗體,培養(yǎng)基,歡迎各位前來(lái)咨詢(xún)。
Tmpred的Web界面十分簡(jiǎn)明。用戶(hù)將單字符序列輸入查詢(xún)序列文本框,并可以指定預(yù)測(cè)時(shí)采用的跨膜螺旋疏水區(qū)的*小長(zhǎng)度和長(zhǎng)度。輸出結(jié)果包含四個(gè)部分:可能的跨膜螺旋區(qū)、相關(guān)性列表、建議的跨膜拓?fù)淠P鸵约按硐嗤Y(jié)果的圖。如果用G蛋白耦聯(lián)受體(P51684)作查詢(xún)序列,將會(huì)得到下面的模型:
首 頁(yè)| 公司介紹| 產(chǎn)品展示| 公司新聞| 技術(shù)文章| 聯(lián)系我們| 客戶(hù)留言
阿儀網(wǎng) 設(shè)計(jì)制作,未經(jīng)允許翻錄必究. 聯(lián)系人:錢(qián)經(jīng)理 聯(lián)系電話:13636351217 ICP備案號(hào):滬ICP備11004148號(hào)-11 總訪問(wèn)量:9088986 管理登錄
主營(yíng)產(chǎn)品:ELISA試劑盒、人ELISA試劑盒、大鼠ELISA試劑盒、小鼠ELISA試劑盒、生物試劑、抗體、血清、進(jìn)口標(biāo)準(zhǔn)品、微生物培養(yǎng)基
掃一掃,關(guān)注我們!