国产性70yerg老太,色综合在,国产精品亚洲一区二区无码,无码人妻束缚av又粗又大

基本信息

項(xiàng)目名稱:
基于蛋白質(zhì)序列、結(jié)構(gòu)的特征選取和約簡(jiǎn)的耐熱蛋白預(yù)測(cè)系統(tǒng)構(gòu)建
小類:
生命科學(xué)
簡(jiǎn)介:
本文根據(jù)蛋白質(zhì)序列,提取了序列特征、二級(jí)結(jié)構(gòu)特征和全局描述性特征。進(jìn)一步利用Relief算法和Filter算法,遺傳算法對(duì)特征向量進(jìn)行約簡(jiǎn),并對(duì)約簡(jiǎn)后的特征向量進(jìn)行對(duì)比實(shí)驗(yàn),從而得出影響蛋白質(zhì)耐熱性的關(guān)鍵特征。本研究有助于從理論角度解釋蛋白質(zhì)耐熱性的生物化學(xué)原理,所建立的耐熱性蛋白判別機(jī)制可以有效降低傳統(tǒng)生物實(shí)驗(yàn)的時(shí)間成本和實(shí)驗(yàn)成本。
詳細(xì)介紹:
研究蛋白質(zhì)的序列、結(jié)構(gòu)和功能對(duì)嗜熱菌穩(wěn)定的作用,不僅可以從理論角度解釋蛋白質(zhì)穩(wěn)定背后的物理化學(xué)原理,而且有助于耐熱性蛋白質(zhì)在基因工程、發(fā)酵工業(yè)、耐熱酶設(shè)計(jì)中的應(yīng)用。 本文以從NCBI 數(shù)據(jù)庫(kù)下載得到的蛋白質(zhì)序列數(shù)據(jù)為研究對(duì)象,提取蛋白質(zhì)序列信息、物化性質(zhì)和全局描述性特征。然后,使用不同特征的雜交策略,對(duì)單組特征、組合特征分別進(jìn)行了訓(xùn)練預(yù)測(cè)對(duì)比試驗(yàn)。但是,由于特征的冗余性和特征之間的互相干擾,必須對(duì)特征進(jìn)行約簡(jiǎn)以提高預(yù)測(cè)準(zhǔn)確率。本文分別利用遺傳算法,Relief算法和Filter算法,對(duì)提取的特征進(jìn)行適當(dāng)?shù)募s簡(jiǎn),以得到對(duì)蛋白質(zhì)耐熱性影響最大的特征,繼而分別設(shè)計(jì)了基于三種算法約簡(jiǎn)后的特征向量的耐熱判別機(jī)制。在三種算法中,以遺傳算法進(jìn)行約簡(jiǎn)后的特征向量構(gòu)造的分類器取得了最好的判別效果,其判別準(zhǔn)確率和Matthew相關(guān)系數(shù)分別為96%和0.92,較約簡(jiǎn)之前均有提高。 本研究的結(jié)論有助于解釋蛋白質(zhì)耐熱性的生物化學(xué)原理,所建立的耐熱性蛋白判別機(jī)制可以有效降低傳統(tǒng)生物實(shí)驗(yàn)的時(shí)間成本和實(shí)驗(yàn)成本。

作品專業(yè)信息

撰寫目的和基本思路

【目的】建立有效的耐熱蛋白判別機(jī)制,編寫相應(yīng)應(yīng)用程序,以降低傳統(tǒng)實(shí)驗(yàn)方法的成本。 【基本思路】1.從NCBI數(shù)據(jù)庫(kù)下載耐熱性蛋白質(zhì)和非耐熱性蛋白質(zhì)樣本。然后提取蛋白質(zhì)序列信息,物化性質(zhì)和全局描述性特征作為分類器的候選特征向量。 2.利用Relief算法、Filter算法和遺傳算法對(duì)特征向量進(jìn)行約簡(jiǎn),得到影響蛋白質(zhì)耐熱性的關(guān)鍵特征,并利用約簡(jiǎn)后的特征判別蛋白質(zhì)耐熱性。

科學(xué)性、先進(jìn)性及獨(dú)特之處

1.根據(jù)蛋白質(zhì)序列,同時(shí)提取了序列特征和二級(jí)結(jié)構(gòu)特征和全局描述性特征;使用不同特征的雜交策略,對(duì)單組特征、組合特征分別進(jìn)行了訓(xùn)練預(yù)測(cè)對(duì)比試驗(yàn); 2.分別利用Relief算法、Filter算法和遺傳算法對(duì)特征向量進(jìn)行約簡(jiǎn),并對(duì)約簡(jiǎn)后特征向量進(jìn)行對(duì)比實(shí)驗(yàn)。尤其是遺傳算法的引入,對(duì)提高預(yù)測(cè)準(zhǔn)確率有較為明顯的作用。

應(yīng)用價(jià)值和現(xiàn)實(shí)意義

1.本作品通過特征約簡(jiǎn)方法得出了影響蛋白質(zhì)耐熱性的關(guān)鍵特征,有助于從理論角度解釋蛋白質(zhì)耐熱性的生物化學(xué)原理; 2.本作品所建立的耐熱性蛋白判別機(jī)制可以有效降低傳統(tǒng)生物實(shí)驗(yàn)的時(shí)間成本和實(shí)驗(yàn)成本; 3.本作品所使用的研究方法有望應(yīng)用于其他同類課題的研究。

學(xué)術(shù)論文摘要

研究蛋白質(zhì)的序列、結(jié)構(gòu)和功能對(duì)嗜熱菌穩(wěn)定的作用,不僅可以從理論角度解釋蛋白質(zhì)穩(wěn)定背后的物理化學(xué)原理,而且有助于耐熱性蛋白質(zhì)在基因工程、發(fā)酵工業(yè)、耐熱酶設(shè)計(jì)中的應(yīng)用。本文以從NCBI 數(shù)據(jù)庫(kù)下載得到的蛋白質(zhì)序列數(shù)據(jù)為研究對(duì)象,提取蛋白質(zhì)序列信息、物化性質(zhì)和全局描述性特征?;谶@些特征的組合,本文用支持向量機(jī)構(gòu)造了可靠的分類器。 但是,由于特征的冗余性和特征之間的互相干擾,必須對(duì)特征進(jìn)行約簡(jiǎn)以提高預(yù)測(cè)準(zhǔn)確率。本文分別利用遺傳算法,Relief算法和Filter算法,對(duì)提取的特征進(jìn)行適當(dāng)?shù)募s簡(jiǎn),以減少特征空間維數(shù),得到對(duì)蛋白質(zhì)耐熱性影響最大的特征,繼而分別設(shè)計(jì)了基于三種算法約簡(jiǎn)后的特征向量的耐熱判別機(jī)制。實(shí)驗(yàn)結(jié)果表明,經(jīng)過約簡(jiǎn)后的算法取得了更好的判別效果和更高的預(yù)測(cè)準(zhǔn)確率。在三種算法中,以遺傳算法進(jìn)行約簡(jiǎn)后的特征向量構(gòu)造的分類器取得了最好的判別效果,其判別準(zhǔn)確率和Matthew相關(guān)系數(shù)分別為96%和0.92,較約簡(jiǎn)之前均有提高。

獲獎(jiǎng)情況

1.De Wang, Liang Yang, Zhengqi Fu and Jingbo Xia*. Prediction of Thermophilic Protein with Pseudo Amino Acid Composition: An Approach from Combined Feature Selection and Reduction. Protein & Peptide Letters, 2011, Vol. 18, No. 7, 684-689. (SCI期刊,影響因子:1.755) 2. Yang Liang, Fu Zhengqi, Wang De, Xia Jingbo*. An Improved Ant Colony Algorithm for Continuous Space Optimization. The International Conference on Machine Learning and Cybernetics (ICMLC2010),1829-1934. (EI檢索,Accession number: 20104613374682 )

鑒定結(jié)果

參考文獻(xiàn)

[1] Inna, D.; Ilya, M.; Stephen, R.H.; Kim, S.H. Prediction of protein folding class using global description of amino acid sequence. Biophysics, 1995, 92, 8700-8704. [2] Lin, H.; Li, Q.Z. Using Pseudo Amino Acid Composition to Predict Protein Structural Class: Approached by Incorporating 400 Dipeptide Components. J. Comput. Chem., 2007, 28, 1463-1466. [3] Gromiha, M.M.; Suresh, M.X. Discrimination of mesophilic and thermophilic proteins using machine learning algorithms. Proteins, 2008, 70, 1274–1279. [4] Lin, H.; Chen, W. Prediction of thermophilic proteins using feature selection technique. J. Microbiol. Methods, 2011, 84, 67-70. [5] 博士學(xué)位論文:丁彥蕊. 嗜熱菌耐熱性與蛋白質(zhì)序列、結(jié)構(gòu)和功能關(guān)系的生物信息學(xué)研究。

同類課題研究水平概述

對(duì)于耐熱性蛋白質(zhì)的判別,傳統(tǒng)的生物實(shí)驗(yàn)手段需要進(jìn)行大量的實(shí)驗(yàn),觀測(cè)周期也相對(duì)較長(zhǎng),因而財(cái)力成本和時(shí)間成本都很高。因此,運(yùn)用生物信息技術(shù)來研究蛋白質(zhì)的耐熱性十分必要。 運(yùn)用生物信息技術(shù)主要涉及到以下兩個(gè)問題:分類器的選擇和特征的提取與約簡(jiǎn)。對(duì)于分類器的選擇,有很多方法和算法運(yùn)用到這一領(lǐng)域中來。例如支持向量機(jī),神經(jīng)網(wǎng)絡(luò),決策樹, K最近鄰域, KRAB算法等?,F(xiàn)階段,支持向量機(jī)已成一種比較流行和可靠穩(wěn)定的分類預(yù)測(cè)算法。通過研究,國(guó)內(nèi)外學(xué)者運(yùn)用各種方法得出了很多關(guān)于蛋白質(zhì)耐熱性的結(jié)論。 關(guān)于特征的提取,國(guó)內(nèi)外學(xué)者也做了很多研究。例如,Das和Gerstein認(rèn)為耐熱性蛋白質(zhì)的序列長(zhǎng)度一般要比它所對(duì)應(yīng)的非耐熱性蛋白質(zhì)短,Suzuki等認(rèn)為蛋白質(zhì)氨基酸組成中的高脯氨酸含量和耐熱性有關(guān),Argos等認(rèn)為丙氨酸是一種容易形成螺旋的殘基,因此高溫蛋白質(zhì)中的丙氨酸含量較高。還有一些學(xué)者認(rèn)為氨基酸組成和二肽組成都與蛋白質(zhì)耐熱性有密切關(guān)系。此外,一些學(xué)者通過研究認(rèn)為除氨基酸組成和二肽組成外,還有一些二級(jí)結(jié)構(gòu)和物化特征對(duì)蛋白質(zhì)的耐熱性有顯著影響,例如鹽橋,氫鍵,疏水性,溶劑接觸表面積等。還有學(xué)者結(jié)合其他方法提取特征,如胡學(xué)海等結(jié)合混沌圖(CGR)來提取特征。而對(duì)于特征的約簡(jiǎn)方面,也有學(xué)者用了各種不同的方法。如Hao Lin等使用ANOVA(analysis of variance)來研究蛋白質(zhì)的耐熱性。其他常用方法有主成分分析法(PCA),mRMR (minimal-redundancy-maximal-relevance),Relief算法等。 但是,這些研究往往只注意到某一類特征對(duì)于蛋白質(zhì)耐熱性的影響而忽視了其他特征的影響。因此,本研究提取了氨基酸組成特征、物化性質(zhì)特征和全局描述性特征,并基于這幾類特征作了單組特征實(shí)驗(yàn)和組合特征實(shí)驗(yàn)。而關(guān)于特征約簡(jiǎn),基于課題組在人工智能領(lǐng)域的研究基礎(chǔ),引入遺傳算法來選取特征,并以Filter算法和Relief算法做了對(duì)比實(shí)驗(yàn)。
建議反饋 返回頂部