基于超圖的網(wǎng)絡增強方法
作者:程嘉梁 軟件學院
指導老師:高躍 軟件學院
關(guān)鍵詞:超圖;網(wǎng)絡增強;
摘要
我們直接獲取的生物網(wǎng)絡中往往充斥著大量的噪聲,這些噪聲會影響網(wǎng)絡結(jié)構(gòu)的準確性,對下游應用造成不利影響。針對這一問題,研究者們提出了許多解決方法,如網(wǎng)絡增強、網(wǎng)絡去卷積等。這些方法有一些較為明顯的缺點:(1)缺乏普適性;(2)基于啟發(fā)式,缺少數(shù)學解釋;(3)基于簡單圖的低階局部結(jié)構(gòu),信息利用率低。因此,我們提出了一種新型的生物網(wǎng)絡優(yōu)化方法:基于超圖的網(wǎng)絡增強方法(HOCNE)。該方法根據(jù)原始網(wǎng)絡的鄰接矩陣構(gòu)建多超圖,并從多超圖中提取高階信息反向?qū)W(wǎng)絡進行優(yōu)化。我們在(1)GM12878細胞系中所有常染色體的1kb和5kb分辨率的Hi-C基因組網(wǎng)絡與(2)細粒度的生物圖像(蝴蝶、猴子)相似性網(wǎng)絡中進行了實驗,實驗結(jié)果證明了我們的方法的有效性。
方法概述
我們的方法(HOCNE)大體上可以分為5個步驟(如圖1所示)。第一步,我們輸入一個未經(jīng)處理的有噪生物網(wǎng)絡及其鄰接矩陣。第二步,通過改變相鄰節(jié)點的數(shù)量,我們使用KNN算法與輸入網(wǎng)絡的鄰接矩陣構(gòu)建多張超圖。第三步,我們分別從每張超圖中提取對應的高階關(guān)系矩陣,并通過哈達瑪積對之進行組合,并定義組合后的矩陣為多超圖的高階關(guān)系矩陣。第四步,我們將多超圖高階關(guān)系矩陣輸入預定義的隨機擴散過程中,通過迭代計算對網(wǎng)絡結(jié)構(gòu)進行優(yōu)化。第五步,我們輸出迭代最終收斂到的結(jié)果,記為我們優(yōu)化后的生物網(wǎng)絡的鄰接矩陣。
對Hi-C基因組網(wǎng)絡的優(yōu)化
Hi-C是一種基于3C的技術(shù),用于測量細胞群中成對出現(xiàn)的染色質(zhì)相互作用的頻率。Hi-C讀取的數(shù)據(jù)可以構(gòu)建加權(quán)無向網(wǎng)絡,其中基因組區(qū)域是結(jié)點,兩個區(qū)域之間的標準化讀取映射是加權(quán)邊。圖2中的熱力圖直觀地展示了我們的方法(HOCNE)卓越的性能,圖3的結(jié)果說明我們的方法對應的量化指標有最大的平均值與最小的標準差,表明我們的方法更優(yōu)秀也更穩(wěn)定。
對細粒度生物圖像相似性網(wǎng)絡的優(yōu)化
我們對蝴蝶與猴子這兩類細粒度的生物圖像相似性網(wǎng)絡進行了優(yōu)化,可視化結(jié)果與檢索圖線(圖4-圖7)說明我們的方法(HOCNE)可以更好地提高這一類網(wǎng)絡的聚類特性。具體而言,HOCNE優(yōu)化后網(wǎng)絡的對應錯誤率較SOTA的方法NE分別降低了19%(蝴蝶網(wǎng)絡)與63%(猴子網(wǎng)絡)!
圖片:
1.方法流程示意圖
2. 16號常染色體的Hi-C關(guān)聯(lián)矩陣熱力圖
3. 所有方法量化指標對應的小提琴圖
4. 蝴蝶網(wǎng)絡的可視化
5. 蝴蝶網(wǎng)絡的檢索準確度曲線
6. 猴子網(wǎng)絡的可視化
7. 猴子網(wǎng)絡的檢索準確度曲線
外部鏈接:郵箱:chengjl16@163.com