国产性70yerg老太,色综合在,国产精品亚洲一区二区无码,无码人妻束缚av又粗又大

基本信息

項目名稱:
基于主題模型的中文語義研究
小類:
信息技術(shù)
簡介:
隨著信息爆炸時代的到來,對于信息的分析與處理就變得尤為重要。在文本分析領(lǐng)域中,主題模型已經(jīng)成功的應(yīng)用于對英文文本的建模,然而由于漢語與英語在語義結(jié)構(gòu)方面的巨大差異,漢語主題模型的研究仍然存在著尚未解決的關(guān)鍵問題。已有的漢語主題模型的研究都只是簡單的套用英文主題模型,并沒有考慮到漢語語義的高度復(fù)雜性,本文提出了一種新的針對漢語的主題模型,并經(jīng)過對大量文本的分類實驗證明了新模型的有效性。
詳細(xì)介紹:
在如今這個信息極大豐富的時代,當(dāng)我們面對海量信息的時候,如何高速有效的取得對我們有用的信息就顯得極其重要。對文本進(jìn)行分析與處理便是解決這一問題的有效途徑之一。主題模型是近年來應(yīng)用文本分析的一個熱點,雖然他已經(jīng)廣泛的應(yīng)用于對英文文本的分析領(lǐng)域,但是,對中文主題模型的研究仍然存在著尚未解決的關(guān)鍵問題。絕大多數(shù)的研究者在對中文進(jìn)行主題模型建模的時候,都是簡單的套用英文文本的建模方式,而忽略了漢語與英語在語義結(jié)構(gòu)上存在重大差異這一事實,這就迫切的需要我們提出一種新的,更加適用于漢語的主題模型。本文通過對漢語與英語的特征分析,合理的抓住了漢語的語義結(jié)構(gòu)特點,提出了一種新的,以漢字為基本可觀察變量的主題模型,并且在用新模型對中文語料庫進(jìn)行建模后,用支持向量機(jī)為機(jī)器學(xué)習(xí)工具對提取的文本特征進(jìn)行學(xué)習(xí)并分類,取得了很好的分類效果,對SOUGOU實驗室提供的新聞分類語料庫中的10000篇文本進(jìn)行分類時,準(zhǔn)確率可達(dá)85%,并且該模型相比較于傳統(tǒng)的漢語主題模型,提高了分類的效率,以此證明了新模型在語義層面給中文文本進(jìn)行建模的有效性。

作品專業(yè)信息

撰寫目的和基本思路

首先,鑒于目前對于信息處理的重要性,本文選取了有關(guān)為文本建模方面的研究以滿足時代的需要;其次,主題模型的研究在英文領(lǐng)域以成為熱點并得到廣泛應(yīng)用,但漢語主題模型的研究仍存在未解決的問題,于是為漢語提出一個合理的主題模型便顯得迫在眉睫;再次,分析了漢語與英語的不同點,并根據(jù)中文的語義結(jié)構(gòu)特點,提出了新的以漢字為基本可觀察變量的主題模型;最后,通過實驗證明了新模型的有效性。

科學(xué)性、先進(jìn)性及獨特之處

本文以文本分析領(lǐng)域的熱點——主題模型為基礎(chǔ),在發(fā)現(xiàn)該模型在中文領(lǐng)域應(yīng)用的問題之后,結(jié)合中文的語言特點,提出了新的適用于中文的主題模型,從而為更加有效的分析中文文本提供了有效工具。并且,在實驗的過程中,以目前分類技術(shù)中被認(rèn)為最有效的支持向量機(jī)來進(jìn)行機(jī)器學(xué)習(xí),保證了分類結(jié)果的準(zhǔn)確性。

應(yīng)用價值和現(xiàn)實意義

新模型可以應(yīng)用于基于語義的信息檢索,文本分類、歧義去除、引用分析、社交網(wǎng)絡(luò)分析等。并且為未來新的中文分析模型的提出提供了思路和方向。

學(xué)術(shù)論文摘要

隨著主題模型的發(fā)展,使用主題模型來對中文文本進(jìn)行分析越來越受到人們的關(guān)注?,F(xiàn)如今,絕大多數(shù)的研究者都是簡單的套用英文的主題模型,也就是將漢語中的詞作為基本可觀察變量的方法來分析中文文本。然而,漢語和英語在語義的基本結(jié)構(gòu)和語句構(gòu)成上存在著巨大差異,這使我們有理由懷疑在分析中文文本時,套用英文建模方式的有效性,因此本文作者提出了一種以漢字為基本可觀察變量的主題模型。我們分別以漢字和漢語詞作為基本可觀察變量,使用主題模型中的LDA模型對中文文本進(jìn)行建模,并比較了他們在分支度上的表現(xiàn),再利用支持向量機(jī)(SVM)對文本進(jìn)行分類。實驗證明,以漢字為基本可觀察變量的LDA模型在分支度上的表現(xiàn)優(yōu)于以漢語詞為基本可觀察變量的LDA模型;同時,在文本分類方面,兩者表現(xiàn)出了幾乎相同的準(zhǔn)確性,且在個別主題數(shù)上,前者的準(zhǔn)確率高于后者。在平行雙語語料庫的研究中,我們分別比較了基于英語詞,漢語詞和漢字的主題模型在文本分類方面的表現(xiàn),探討了這幾個主題模型的相似度,結(jié)果證明主題模型可以很好的在語義層面給文本建模,同時,提出了用以上三種模型同時分類來提高分類準(zhǔn)確度的新方法。

獲獎情況

鑒定結(jié)果

參考文獻(xiàn)

[1] M. Steyvers and Tom Griffithm, Probabilistic topic models[M]. In T.Landauer, D. McNamara, S. Dennis, and W. Kintsch(eds), Latent Semantic Anaysis:A Road to Meaning.2007. [2]J. Boyd-Graber, D. Blei, and X. Zhu. A topic model for word sense disambiguation[A]. In Empirical Methods in Natural Language Processing[C], 2007. [3] J. Chang and D. Blei. Hierarchical relational models for document networks[J]. In The Annals of Applied Statistics.2010,Vol.4,No.1,124-150. [4]林洋港.2009.概率主題模型在文本分類中的應(yīng)用研究[D]. [5]唐懿芳,牛力-傅賽香,嚴(yán)小衛(wèi)。文本的自動分類,廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2001,19(4):50—55 [6]王建芬,曹元大。支持向量機(jī)在大類別數(shù)分類中的應(yīng)用,北京理工大學(xué)學(xué)報,2001,21(2): [7]徐通鏘. 字和漢語語義句法的基本結(jié)構(gòu)原理[A]. 03—5397(2001)01—0003.11 [8]徐通鏘. 字和漢語語義句法的生成機(jī)制[J]. 語言文字應(yīng)用1999 年第1期 [9] 胡學(xué)鋼,董學(xué)春,謝飛. 基于詞向量空間模型的中文文本分類方法[A]. 1003—5060(2007)10-1261-04

同類課題研究水平概述

一種較早出現(xiàn)的主題模型是由Hofman(1999)提出的probabilistic Latent Semantic Index (pLSI)[,pLSI中關(guān)于組成一篇文檔的各個主題的混合權(quán)重沒有給出任何概率假設(shè),這就造成該模型無法對訓(xùn)練文本集外的文本進(jìn)行相關(guān)的概率計算,所以如果要分析某個文本,必須要將其加入訓(xùn)練集重新訓(xùn)練;此外pLSI中需要學(xué)習(xí)的模型參數(shù)會隨著文檔數(shù)目的增加而線性增長。在pLSI之后,Blei等提出的Latent Dirichlet Allocation(LDA)在主題模型的發(fā)展過程中起到了很大作用。LDA模型對每篇文章的主題分布變量引入了一個Dirichlet分布作為先驗(由于Dirichlet分布與多項式分布共軛,這也方便了貝葉斯網(wǎng)絡(luò)中推理),并把Dirichlet分布的參數(shù)作為LDA模型的參數(shù),從而解決了上面提到的pLSI中問題。從此,LDA模型便大行其道,很是受研究者的喜愛,是研究的熱點。但就目前來看,大多數(shù)的研究都把精力放在了英文的文本分析上,而由于漢語語義結(jié)構(gòu)的復(fù)雜性,幾乎沒有學(xué)者對中文的主題模型進(jìn)行過細(xì)致的研究,即便有,也只是簡單的套用英文主題模型的方式,并沒有很好的研究和利用中文的語義結(jié)構(gòu)的特點,并不妥當(dāng),所以這是中文主題模型尚待解決的一個問題。
建議反饋 返回頂部