作者:2018級本科生 劉坤瓚 電子系
指導(dǎo)老師:谷源濤 電子系
關(guān)鍵詞:隨機投影、離群點檢測、子空間聚類、降維
摘要
子空間學(xué)習(xí)相關(guān)領(lǐng)域在子空間模型基本假設(shè)下應(yīng)運而生,目前已經(jīng)在圖像分割、人臉識別等領(lǐng)域有著較多的應(yīng)用,本項目將關(guān)注子空間學(xué)習(xí)中的離群點檢測問題。目前的基于自表示的離群點檢測算法保證了較高的成功率,但是其效率會隨著數(shù)據(jù)維數(shù)的增加而大大下降,本項目提出了一種壓縮離群點檢測算法,它能夠同時保證較高的成功率和較少的計算時間。我們的主要貢獻(xiàn)是在理論上證明了此算法的可靠性,同時還設(shè)計了真實數(shù)據(jù)集上的實驗確認(rèn)了其良好的表現(xiàn)。
圖1 子空間學(xué)習(xí)應(yīng)用于人臉識別等領(lǐng)域
背景簡介
離群點檢測問題是在處理現(xiàn)實數(shù)據(jù)集中的重要問題,我們可以想象,如果能在處理數(shù)據(jù)前,例如聚類,將數(shù)據(jù)中的“噪聲”進(jìn)行檢測和摘除,我們后續(xù)的處理將變得更加準(zhǔn)確和高效。目前離群點檢測算法主要是基于自表示的離群點檢測,算法的準(zhǔn)確率隨著損失函數(shù)的改進(jìn)在一步步增加。
隨機投影方法是一種將數(shù)據(jù)進(jìn)行降維的方法。目前對隨機投影的研究主要集中在隨機矩陣的優(yōu)良性質(zhì),例如子空間保距、保角,它們?yōu)樽涌臻g學(xué)習(xí)中的許多問題提供了理論基礎(chǔ)。
圖2 隨機投影具有子空間保距、保角等基礎(chǔ)性質(zhì)
壓縮離群點檢測
壓縮離群點檢測的實現(xiàn)基于三個步驟。第一步,隨機投影,將數(shù)據(jù)實現(xiàn)降維;第二步,自表示,確定數(shù)據(jù)之間的內(nèi)在聯(lián)系;第三步,隨機游走,基于離群點的特殊性通過有向圖上隨機游走將其確定。
圖3 壓縮離群點檢測算法
核心創(chuàng)新點
本作品的主要貢獻(xiàn)是在理論上證明了算法的高效性和可靠性。根據(jù)我們的調(diào)研,這是降維方法首次在離群點檢測問題中使用,我們的計算證明了子空間保持性質(zhì)在隨機投影后仍然以大概率成立,這拓寬了隨機投影的應(yīng)用場景,尤其是在更多的子空間學(xué)習(xí)問題中的使用。
圖4 基于自表示的壓縮離群點檢測
聯(lián)系方式:lkz18@mails.tsinghua.edu.cn
相關(guān)資料下載地址:liukunzan.github.io