作者:2018級本科生 劉坤瓚 電子系
指導老師:谷源濤 電子系
關鍵詞:隨機投影、離群點檢測、子空間聚類、降維
摘要
子空間學習相關領域在子空間模型基本假設下應運而生,目前已經在圖像分割、人臉識別等領域有著較多的應用,本項目將關注子空間學習中的離群點檢測問題。目前的基于自表示的離群點檢測算法保證了較高的成功率,但是其效率會隨著數據維數的增加而大大下降,本項目提出了一種壓縮離群點檢測算法,它能夠同時保證較高的成功率和較少的計算時間。我們的主要貢獻是在理論上證明了此算法的可靠性,同時還設計了真實數據集上的實驗確認了其良好的表現。
圖1 子空間學習應用于人臉識別等領域
背景簡介
離群點檢測問題是在處理現實數據集中的重要問題,我們可以想象,如果能在處理數據前,例如聚類,將數據中的“噪聲”進行檢測和摘除,我們后續(xù)的處理將變得更加準確和高效。目前離群點檢測算法主要是基于自表示的離群點檢測,算法的準確率隨著損失函數的改進在一步步增加。
隨機投影方法是一種將數據進行降維的方法。目前對隨機投影的研究主要集中在隨機矩陣的優(yōu)良性質,例如子空間保距、保角,它們?yōu)樽涌臻g學習中的許多問題提供了理論基礎。
圖2 隨機投影具有子空間保距、保角等基礎性質
壓縮離群點檢測
壓縮離群點檢測的實現基于三個步驟。第一步,隨機投影,將數據實現降維;第二步,自表示,確定數據之間的內在聯(lián)系;第三步,隨機游走,基于離群點的特殊性通過有向圖上隨機游走將其確定。
圖3 壓縮離群點檢測算法
核心創(chuàng)新點
本作品的主要貢獻是在理論上證明了算法的高效性和可靠性。根據我們的調研,這是降維方法首次在離群點檢測問題中使用,我們的計算證明了子空間保持性質在隨機投影后仍然以大概率成立,這拓寬了隨機投影的應用場景,尤其是在更多的子空間學習問題中的使用。
圖4 基于自表示的壓縮離群點檢測
聯(lián)系方式:lkz18@mails.tsinghua.edu.cn
相關資料下載地址:liukunzan.github.io