作者:云雯 經濟管理學院
指導老師:王純 經濟管理學院
關鍵詞:聚類、隨機圖、高維統(tǒng)計、計算機理論、樣本復雜度
摘要
一、回歸的數據特征
1.多個因變量;2.部分自變量對應單個因變量;3.單個因變量或與其他因變量對應的自變量相關;4.特征3中相關性未知,因變量“聯(lián)動”呈塊狀結構。
二、數學模型
總的自變量可能較多(所有因變量對應的自變量),容易出現高維問題,但高維的參數稀疏/低秩假設不成立;且若根據樣本協(xié)方差矩陣構建圖,圖中邊不獨立,這和常用隨機圖模型不符。所以,我們提出數學模型:有塊狀結構且為隨機矩陣(average-case analysis)。
三、算法
我們“先聚類后回歸”算法如圖1。在樣本量不變的情況下,該算法減少估計參數的個數,緩解高維的問題。 對于圖1中Step 1,我們先根據的樣本協(xié)方差矩陣絕對值和硬閾值建立無向圖;由于樣本較少,圖中的邊隨機性較大,我們不用局部信息(單條邊),而用全局信息(共同鄰居數量是否超過閾值)來;與常用的最小化MSE+凸的懲罰項(如Lasso回歸)不同,該算法借用圖的全局信息考慮高維問題中特殊的塊狀結構來添加懲罰項。
圖1 算法簡介
四、理論結構和拓展
我們證明該算法樣本復雜度與最大塊維數同量級,并且是最優(yōu)的。我們還把理論和算法拓展到有更復雜塊狀結構和條狀(band)結構的情況。