作者:云雯 經(jīng)濟(jì)管理學(xué)院
指導(dǎo)老師:王純 經(jīng)濟(jì)管理學(xué)院
關(guān)鍵詞:聚類(lèi)、隨機(jī)圖、高維統(tǒng)計(jì)、計(jì)算機(jī)理論、樣本復(fù)雜度
摘要
一、回歸的數(shù)據(jù)特征
1.多個(gè)因變量;2.部分自變量對(duì)應(yīng)單個(gè)因變量;3.單個(gè)因變量或與其他因變量對(duì)應(yīng)的自變量相關(guān);4.特征3中相關(guān)性未知,因變量“聯(lián)動(dòng)”呈塊狀結(jié)構(gòu)。
二、數(shù)學(xué)模型
總的自變量可能較多(所有因變量對(duì)應(yīng)的自變量),容易出現(xiàn)高維問(wèn)題,但高維的參數(shù)稀疏/低秩假設(shè)不成立;且若根據(jù)樣本協(xié)方差矩陣構(gòu)建圖,圖中邊不獨(dú)立,這和常用隨機(jī)圖模型不符。所以,我們提出數(shù)學(xué)模型:有塊狀結(jié)構(gòu)且為隨機(jī)矩陣(average-case analysis)。
三、算法
我們“先聚類(lèi)后回歸”算法如圖1。在樣本量不變的情況下,該算法減少估計(jì)參數(shù)的個(gè)數(shù),緩解高維的問(wèn)題。 對(duì)于圖1中Step 1,我們先根據(jù)的樣本協(xié)方差矩陣絕對(duì)值和硬閾值建立無(wú)向圖;由于樣本較少,圖中的邊隨機(jī)性較大,我們不用局部信息(單條邊),而用全局信息(共同鄰居數(shù)量是否超過(guò)閾值)來(lái);與常用的最小化MSE+凸的懲罰項(xiàng)(如Lasso回歸)不同,該算法借用圖的全局信息考慮高維問(wèn)題中特殊的塊狀結(jié)構(gòu)來(lái)添加懲罰項(xiàng)。
圖1 算法簡(jiǎn)介
四、理論結(jié)構(gòu)和拓展
我們證明該算法樣本復(fù)雜度與最大塊維數(shù)同量級(jí),并且是最優(yōu)的。我們還把理論和算法拓展到有更復(fù)雜塊狀結(jié)構(gòu)和條狀(band)結(jié)構(gòu)的情況。