基本信息
- 項目名稱:
- 基于粗糙集和遺傳神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預測方法研究
- 小類:
- 生命科學
- 大類:
- 自然科學類學術(shù)論文
- 簡介:
- 本文研究了氨基酸殘基的編碼方法,探討了神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級結(jié)構(gòu)預測中的應用,并對遺傳神經(jīng)網(wǎng)絡(luò)的學習過程及結(jié)果進行了分析。
- 詳細介紹:
- 生物信息學作為一門新興學科,已成為本世紀自然科學的前沿領(lǐng)域之一。在生物信息學的眾多研究方向中,蛋白質(zhì)結(jié)構(gòu)預測占有及其重要的地位。它的研究對于正確理解蛋白質(zhì)結(jié)構(gòu)與功能的關(guān)系,以及分子設(shè)計、生物制藥等領(lǐng)域都有著很重要的現(xiàn)實意義。 本文研究了氨基酸殘基的編碼方法,探討了神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級結(jié)構(gòu)預測中的應用,并對遺傳神經(jīng)網(wǎng)絡(luò)的學習過程及結(jié)果進行了分析。主要研究內(nèi)容及結(jié)論如下: 1.為了更好的對氨基酸殘基進行編碼,通過統(tǒng)計分析和粗糙分析,詳細研究了氨基酸殘基的眾多理化因素對蛋白質(zhì)二級結(jié)構(gòu)的影響,并應用粗糙集知識對這些因素進行了屬性約簡。在保證分類不變的情況下,提取了影響蛋白質(zhì)二級結(jié)構(gòu)的主要理化因素,包括:氨基酸的疏水性環(huán)境、氨基酸能否形成氫鍵、α螺旋的傾向性、Coil無規(guī)則卷曲的傾向性、 Coil無規(guī)則卷曲的構(gòu)象分類。 2.針對傳統(tǒng)5位編碼和正交編碼所含信息不足的缺點,結(jié)合氨基酸殘基在序列中的位置信息及影響蛋白質(zhì)二級結(jié)構(gòu)的主要理化因素,提出了一種新的編碼方法。對比實驗結(jié)果表明,提出的編碼方法是有效的。在相同的實驗條件下,Q3準確率較傳統(tǒng)5位編碼和正交編碼均提高了8.99%-10.94%,同時, QH、QE和QC準確率較傳統(tǒng)5位編碼和正交編碼提高了2.25%-20.43%。 3.針對BP網(wǎng)絡(luò)在網(wǎng)絡(luò)結(jié)構(gòu)較大時計算時間長,且易陷入局部最優(yōu)的不足,通過分析BP網(wǎng)絡(luò)的基本原理,對標準BP算法進行了改進。根據(jù)權(quán)值調(diào)整后誤差的變化方向不同,設(shè)置多個不同的學習率及動量因子。實驗表明,提出的改進方法能夠有效地提高網(wǎng)絡(luò)的訓練速度,并能改善預測結(jié)果,采用改進5位編碼和改進正交編碼,Q3準確度分別可達到59.79%和61.18%。 4. 針對單層神經(jīng)網(wǎng)絡(luò)預測精度偏低的問題,提出了級聯(lián)神經(jīng)網(wǎng)絡(luò)模型。該模型充分利用了氨基酸殘基之間的相關(guān)性,在自適應學習速率和附加動量的BP算法基礎(chǔ)上,通過逐步增加子網(wǎng)絡(luò)的窗口長度來降低特征輸入與神經(jīng)網(wǎng)絡(luò)分類輸出之間的不確定性。仿真實驗表明,提出的網(wǎng)絡(luò)模型是有效的,三態(tài)預測結(jié)果均優(yōu)于單層BP網(wǎng)絡(luò),而且三級級聯(lián)網(wǎng)絡(luò)的預測能力最優(yōu),其預測準確度比單層BP網(wǎng)絡(luò)提高了2.29%-2.70%。結(jié)合本文提出的改進5位編碼和改進正交編碼,三級級聯(lián)網(wǎng)絡(luò)模型的Q3準確度分別可達到62.08%和63.88%。 5.為了進一步提高蛋白質(zhì)二級結(jié)構(gòu)預測的精度,利用遺傳算法全局尋優(yōu)的特點,建立了級聯(lián)遺傳神經(jīng)網(wǎng)絡(luò)模型。該模型不但縮短了樣本學習時間,而且有效避免了神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)解的弊端。仿真實驗結(jié)果表明,采用三級級聯(lián)GA-BP模型,Q3準確度達到了66.04%,比三級級聯(lián) 網(wǎng)絡(luò)模型提高了2.16%,其QH、QE和QC準確率也都有不同程度的提高。
作品專業(yè)信息
撰寫目的和基本思路
- 通過探討氨基酸殘基的編碼方法和神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級結(jié)構(gòu)預測中的應用,以期提高預測精度。 在分析氨基酸殘基理化性質(zhì)的基礎(chǔ)上,利用粗糙集的方法提取出了影響二級結(jié)構(gòu)的主要理化性質(zhì);綜合氨基酸殘基位置信息和理化性質(zhì)對氨基酸進行了編碼;在此編碼的基礎(chǔ)之上依次用改進BP網(wǎng)絡(luò),級聯(lián)BP網(wǎng)絡(luò)和遺傳算法優(yōu)化BP網(wǎng)絡(luò)對蛋白質(zhì)二級結(jié)構(gòu)進行預測,最后通過比較分析,提出了3級級聯(lián)GA-BP網(wǎng)絡(luò)的預測模型。
科學性、先進性及獨特之處
- 全文研究方案正確可行、論點明確、論據(jù)充分、數(shù)據(jù)詳實、科學可信。緊隨蛋白質(zhì)結(jié)構(gòu)預測這個生物信息學前沿,利用多學科交叉綜合研究的方法來探討蛋白質(zhì)二級結(jié)構(gòu)預測這一熱點和難點問題。 作品獨特之處在將粗糙集和神經(jīng)網(wǎng)絡(luò)弱耦合的方法應用于蛋白質(zhì)二級結(jié)構(gòu)預測,提出綜合利用氨基酸殘基位置信息和理化因素的新編碼方式;通過逐步增加級聯(lián)網(wǎng)絡(luò)的窗口長度,降低特征輸入與分類輸出間的不確定性。
應用價值和現(xiàn)實意義
- 雖然本模型只是基于單序列進行結(jié)構(gòu)預測,沒有引入可以將預測精度提高5%-10%的同源信息。但是本文提出了一種將粗糙集和神經(jīng)網(wǎng)絡(luò)弱耦合的全新預測方法,啟發(fā)人們從另外一個角度來考慮蛋白質(zhì)二級結(jié)構(gòu)預測問題,從而對提高蛋白質(zhì)二級結(jié)構(gòu)預測的精度提供一定的借鑒和參考價值。
學術(shù)論文摘要
- 本文研究了氨基酸殘基的編碼方法,探討了神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級結(jié)構(gòu)預測中的應用,并對遺傳神經(jīng)網(wǎng)絡(luò)的學習過程及結(jié)果進行了分析。主要研究內(nèi)容及結(jié)論如下: 在充分分析氨基酸殘基理化因素的基礎(chǔ)上,利用粗糙集的方法提取出了影響二級結(jié)構(gòu)的主要理化因素,綜合氨基酸殘基位置信息和理化性質(zhì)對氨基酸進行了編碼,實驗結(jié)果表明,提出的編碼方法有效,在相同條件下,Q3準確率較傳統(tǒng)編碼方法提高了8.99%-10.94%,QH、QE和QC準確率較傳統(tǒng)編碼方法提高了2.25%-20.43%。 針對單層神經(jīng)網(wǎng)絡(luò)預測精度偏低的問題,提出了級聯(lián)神經(jīng)網(wǎng)絡(luò)模型。該模型通過逐步增加子網(wǎng)絡(luò)的窗口長度來降低特征輸入與分類輸出之間的不確定性。仿真實驗表明,其預測準確度比單層BP網(wǎng)絡(luò)提高了2.29%-2.70%。兩種改進編碼的三級級聯(lián)網(wǎng)絡(luò)的Q3準確度分別可達到62.08%和63.88%。 利用遺傳算法全局尋優(yōu)的特點,建立了級聯(lián)遺傳神經(jīng)網(wǎng)絡(luò)模型。仿真實驗結(jié)果表明,采用三級級聯(lián)GA-BP模型,Q3準確度最高達到了66.04%,比三級級聯(lián) 網(wǎng)絡(luò)模型提高了2.16%,其QH、QE和QC準確率也都有不同程度的提高。
獲獎情況
- 無
鑒定結(jié)果
- 本論文達到國內(nèi)先進水平,針對蛋白質(zhì)二級結(jié)構(gòu)預測提出了新的編碼方法,對以往的BP算法進行了改進,有效提高了網(wǎng)格訓練速度,改善了預測結(jié)果,研究成果有重要參考價值。
參考文獻
- [1]梁剛峰.蛋白質(zhì)二級結(jié)構(gòu)的建模與預測[D].北京:國防科學技術(shù)大學研究生院,2005. [2]萊特(美)著.張維欽譯.蛋白質(zhì)的結(jié)構(gòu)和功能[M].高等教育出版社,1982. [3]趙國屏等編著.生物信息學[M].北京:科學出版社,2002. [4]黃德雙,張廣政.基于氨基酸構(gòu)象分類和神經(jīng)網(wǎng)絡(luò)技術(shù)的蛋白質(zhì)二級結(jié)構(gòu)預測研究[J].生物信息學若干前沿問題的探討,2003,109-116. [5]陶慰孫,李惟,姜涌明.蛋白質(zhì)分子基礎(chǔ)(第二版)[M].北京:高等教育出版社,1995:4-5. [6]Duntsch I,Gediga G.Roughian:Rough information analysis.International Journal of Intelligent Systems,2001(1):121-147. [7]梁吉業(yè),曲開社,徐宗本.信息系統(tǒng)的屬性約簡.系統(tǒng)工程理論與實踐,2001,21(12):76-80. [8]Fan Z P,Ma J,Zhang Q.An approach to multiple attribute decision making based on fuzzy preference information on alternative.Fuzzy Sets and System,2002(131):101-106. [9]Feng S,Xu L.Decision support for fuzzy comprehensive evaluation of urban development.Fuzzy Sets and Systems,1999,105(1):1-12. [10]王國胤,Rough集理論與知識獲取,西安:西安交通大學出版社,2001.
同類課題研究水平概述
- 蛋白質(zhì)二級結(jié)構(gòu)預測的研究與進展: 在過去的幾十年中,科學家們己經(jīng)提出了幾十種理論預測蛋白質(zhì)二級結(jié)構(gòu)的方法。幾乎所有這些方法都假定蛋白質(zhì)的二級結(jié)構(gòu)主要是由鄰近殘基間的短程相互作用所決定的,然后通過對一些已知空間結(jié)構(gòu)的蛋白質(zhì)分子進行分析、歸納,制定出一套預測規(guī)則,并根據(jù)這些規(guī)則對其它已知或未知結(jié)構(gòu)的蛋白質(zhì)分子的二級結(jié)構(gòu)進行預測。機器學習方法在蛋白質(zhì)二級結(jié)構(gòu)預測方面非常成功,其中神經(jīng)網(wǎng)絡(luò)方法是目前公認的前景最為樂觀的二級結(jié)構(gòu)預測方法之一。 最早使用神經(jīng)網(wǎng)絡(luò)在蛋白質(zhì)二級結(jié)構(gòu)預測中取得成功的是Qian和Sejnowski。他們采用的網(wǎng)絡(luò)結(jié)構(gòu)為一個單隱層全互連的網(wǎng)絡(luò),輸入層使用一個長度為2m+1個氨基酸的局部輸入窗口;輸出層由3個單元組成,通過sigmoid型函數(shù)進行放大輸出。其編碼方式采用的是正交編碼,預測的準確率為64.3%。此后,研究人員大都基于這樣的基本模型結(jié)構(gòu),針對提高預測準確度、解決overfitting等問題,做出許多改進工作,如D.G.Kneller、P.Stlorz及Lapedes、S.K.Riis 等人在基于前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進行了不同方式的改進,但是效果不是很明顯。隨后幾年,通過在輸入層添加同源序列比對信息,將基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級結(jié)構(gòu)預測精度提高到一個新的水平。在最近幾年,許多人用神經(jīng)網(wǎng)絡(luò)的方法與其他算法相結(jié)合,推出新的算法以求達到更高的精度。 目前,基于單條序列的神經(jīng)網(wǎng)絡(luò)方法能夠得到65%~68%的二級結(jié)構(gòu)預測準確率,利用多序列比對的信息能提高二級結(jié)構(gòu)預測的準確率?;趩螚l序列和局部輸入窗口的神經(jīng)網(wǎng)絡(luò)方法,經(jīng)過多年的研究,其實際預測準確率提高并不是很明顯,雖然在輸入層利用多重序列比對信息可以比較好的提高預測率,但這樣的預測方法是基于比對算法的,有一定的局限性。 總之,神經(jīng)網(wǎng)絡(luò)技術(shù)在蛋白質(zhì)二級結(jié)構(gòu)預測研究中起著十分重要的作用,但預測精度至今還沒達到十分理想的狀態(tài)。其關(guān)鍵問題是如何選擇一個合理的模型,以及如何很好地描述從氨基酸序列到蛋白質(zhì)二級結(jié)構(gòu)序列的映射過程,從而提高蛋白質(zhì)二級結(jié)構(gòu)的預測準確率。