作者:2018級本科生 劉坤瓚 電子系
指導(dǎo)老師:谷源濤 電子系
關(guān)鍵詞:隨機(jī)投影、離群點(diǎn)檢測、子空間聚類、降維
摘要
子空間學(xué)習(xí)相關(guān)領(lǐng)域在子空間模型基本假設(shè)下應(yīng)運(yùn)而生,目前已經(jīng)在圖像分割、人臉識別等領(lǐng)域有著較多的應(yīng)用,本項(xiàng)目將關(guān)注子空間學(xué)習(xí)中的離群點(diǎn)檢測問題。目前的基于自表示的離群點(diǎn)檢測算法保證了較高的成功率,但是其效率會隨著數(shù)據(jù)維數(shù)的增加而大大下降,本項(xiàng)目提出了一種壓縮離群點(diǎn)檢測算法,它能夠同時保證較高的成功率和較少的計算時間。我們的主要貢獻(xiàn)是在理論上證明了此算法的可靠性,同時還設(shè)計了真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)確認(rèn)了其良好的表現(xiàn)。
圖1 子空間學(xué)習(xí)應(yīng)用于人臉識別等領(lǐng)域
背景簡介
離群點(diǎn)檢測問題是在處理現(xiàn)實(shí)數(shù)據(jù)集中的重要問題,我們可以想象,如果能在處理數(shù)據(jù)前,例如聚類,將數(shù)據(jù)中的“噪聲”進(jìn)行檢測和摘除,我們后續(xù)的處理將變得更加準(zhǔn)確和高效。目前離群點(diǎn)檢測算法主要是基于自表示的離群點(diǎn)檢測,算法的準(zhǔn)確率隨著損失函數(shù)的改進(jìn)在一步步增加。
隨機(jī)投影方法是一種將數(shù)據(jù)進(jìn)行降維的方法。目前對隨機(jī)投影的研究主要集中在隨機(jī)矩陣的優(yōu)良性質(zhì),例如子空間保距、保角,它們?yōu)樽涌臻g學(xué)習(xí)中的許多問題提供了理論基礎(chǔ)。
圖2 隨機(jī)投影具有子空間保距、保角等基礎(chǔ)性質(zhì)
壓縮離群點(diǎn)檢測
壓縮離群點(diǎn)檢測的實(shí)現(xiàn)基于三個步驟。第一步,隨機(jī)投影,將數(shù)據(jù)實(shí)現(xiàn)降維;第二步,自表示,確定數(shù)據(jù)之間的內(nèi)在聯(lián)系;第三步,隨機(jī)游走,基于離群點(diǎn)的特殊性通過有向圖上隨機(jī)游走將其確定。
圖3 壓縮離群點(diǎn)檢測算法
核心創(chuàng)新點(diǎn)
本作品的主要貢獻(xiàn)是在理論上證明了算法的高效性和可靠性。根據(jù)我們的調(diào)研,這是降維方法首次在離群點(diǎn)檢測問題中使用,我們的計算證明了子空間保持性質(zhì)在隨機(jī)投影后仍然以大概率成立,這拓寬了隨機(jī)投影的應(yīng)用場景,尤其是在更多的子空間學(xué)習(xí)問題中的使用。
圖4 基于自表示的壓縮離群點(diǎn)檢測
聯(lián)系方式:lkz18@mails.tsinghua.edu.cn
相關(guān)資料下載地址:liukunzan.github.io