基本信息
- 項(xiàng)目名稱:
- 基于更新信息的網(wǎng)頁(yè)機(jī)器理解及在站內(nèi)搜索中應(yīng)用
- 來(lái)源:
- 第十二屆“挑戰(zhàn)杯”作品
- 小類:
- 信息技術(shù)
- 大類:
- 科技發(fā)明制作B類
- 簡(jiǎn)介:
- 利用站內(nèi)網(wǎng)頁(yè)樹(shù)中主網(wǎng)頁(yè)或上層網(wǎng)頁(yè)及超鏈接相對(duì)穩(wěn)定和可跟蹤性,把爬蟲(chóng)定期上網(wǎng)抓取的相鄰時(shí)間間隔的網(wǎng)頁(yè)進(jìn)行對(duì)比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的,它們對(duì)應(yīng)不同的信息:不變化的鏈接其標(biāo)題具有部門(mén)、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對(duì)應(yīng)的網(wǎng)頁(yè)一般是文檔網(wǎng)頁(yè),需要采用一般網(wǎng)頁(yè)分析方法。結(jié)果說(shuō)明這種方法對(duì)網(wǎng)頁(yè)分析是有效的。
- 詳細(xì)介紹:
- 21世紀(jì)搜索引擎正在改變著我們的生活,百度、谷歌等大型搜索已經(jīng)被大家所熟知,這些搜索引擎是為人們提供寬泛的搜索服務(wù)。一般高校和大型企業(yè)機(jī)構(gòu)都有一定規(guī)模的網(wǎng)站,這些網(wǎng)站中存在著大量信息,對(duì)于高校和企業(yè)內(nèi)部人員來(lái)說(shuō),使用基于本網(wǎng)站的搜索引擎無(wú)疑是最佳的選擇。但是我們了解到現(xiàn)今絕大部分網(wǎng)站或者沒(méi)有搜索功能、或者有搜索功能但這種搜索功能只是人工實(shí)現(xiàn)的目錄索引,自動(dòng)化不高、搜索功能不強(qiáng)。針對(duì)中小型規(guī)模網(wǎng)站的站內(nèi)搜索需求,本設(shè)計(jì)基于站內(nèi)網(wǎng)頁(yè)及其連接相對(duì)固定、易于跟蹤分析的特點(diǎn)提出了基于更新信息的網(wǎng)頁(yè)分析方法,據(jù)此開(kāi)發(fā)了一個(gè)站內(nèi)搜索引擎。任何網(wǎng)站只要使用我們?cè)O(shè)計(jì)這一系統(tǒng)就可以不需要重新設(shè)計(jì)網(wǎng)站就能向用戶提供本網(wǎng)站的搜索服務(wù)。 思路:搜索引擎系統(tǒng)實(shí)際上包含兩個(gè)主要程序和一個(gè)數(shù)據(jù)庫(kù)三部分。一個(gè)程序的功能是用來(lái)爬網(wǎng)頁(yè)、分析網(wǎng)頁(yè)信息并把獲取信息插入數(shù)據(jù)庫(kù),該程序稱為蜘蛛程序或網(wǎng)頁(yè)爬蟲(chóng);另一個(gè)程序?yàn)橛脩籼峁┰跀?shù)據(jù)庫(kù)中查詢所需數(shù)據(jù)的查詢程序,用戶使用搜索引擎主要是使用該程序,蜘蛛程序和數(shù)據(jù)庫(kù)屬于后臺(tái)系統(tǒng),不被用戶感知。本作品架構(gòu)也是基于這個(gè)架構(gòu),與一般搜索引擎不同之處在于網(wǎng)頁(yè)分析部分。 網(wǎng)頁(yè)是網(wǎng)站設(shè)計(jì)者提供信息讓用戶閱讀的唯一方式,是信息的載體。一個(gè)網(wǎng)頁(yè)就是一定量信息的集合,一個(gè)網(wǎng)站是網(wǎng)頁(yè)的集合,是信息的更大的集合。作為向訪問(wèn)者提供信息的網(wǎng)站要解決好兩個(gè)問(wèn)題:一是信息在哪里,二是信息是什么,解決這兩個(gè)問(wèn)題的內(nèi)容構(gòu)成了網(wǎng)頁(yè)內(nèi)容的主體,因此站內(nèi)網(wǎng)頁(yè)的內(nèi)容根據(jù)其角色不同,分為引導(dǎo)信息和信息。站內(nèi)網(wǎng)頁(yè)也因其中主要信息的不同可以分為引導(dǎo)信息網(wǎng)頁(yè)和信息網(wǎng)頁(yè)。引導(dǎo)信息網(wǎng)頁(yè)主要是提供用戶需要的信息到哪里去取,一般是網(wǎng)站的主頁(yè)或網(wǎng)頁(yè)節(jié)點(diǎn)樹(shù)中較上層的網(wǎng)頁(yè),這種網(wǎng)頁(yè)的特征是信息主要是以超鏈接形式存在。由于站內(nèi)信息是有一定組織形式,因此引導(dǎo)性網(wǎng)頁(yè)與網(wǎng)頁(yè)架構(gòu)有關(guān),含有網(wǎng)頁(yè)架構(gòu)信息。信息網(wǎng)頁(yè)就是信息本身,是網(wǎng)頁(yè)節(jié)點(diǎn)樹(shù)中的葉節(jié)點(diǎn)。這兩類網(wǎng)頁(yè)在更新性上表現(xiàn)出完全不同的行為,引導(dǎo)性網(wǎng)頁(yè)中反映架構(gòu)信息的部分一般是不變化的,而引導(dǎo)性網(wǎng)頁(yè)中反映信息的部分和信息網(wǎng)頁(yè)一般隨時(shí)間變化。 我們的思路是利用站內(nèi)網(wǎng)頁(yè)樹(shù)中主網(wǎng)頁(yè)或上層網(wǎng)頁(yè)及超鏈接相對(duì)穩(wěn)定和可跟蹤性,讓爬蟲(chóng)定期上網(wǎng)抓取這些網(wǎng)頁(yè)內(nèi)容,將相鄰時(shí)間間隔的對(duì)應(yīng)網(wǎng)頁(yè)進(jìn)行對(duì)比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的。而這四類超鏈接的連接目標(biāo)對(duì)應(yīng)不同的處理類型:不變化的鏈接反映站內(nèi)結(jié)構(gòu),其鏈接標(biāo)題具有部門(mén)、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對(duì)應(yīng)的網(wǎng)頁(yè)一般是文檔網(wǎng)頁(yè),這類網(wǎng)頁(yè)需要采用一般網(wǎng)頁(yè)分析方法。這些變化信息為進(jìn)一步分析網(wǎng)頁(yè)提供了幫助,如:不變化超鏈接標(biāo)題、不變化的表格標(biāo)題等含有部門(mén)、類型信息,變化信息中時(shí)間信息可以縮小查詢的范圍。這就是我們提出的根據(jù)網(wǎng)頁(yè)更新信息來(lái)分析網(wǎng)頁(yè)的方法。實(shí)驗(yàn)結(jié)果和實(shí)際說(shuō)明我們的這種方法對(duì)網(wǎng)頁(yè)分析是有效的。
作品專業(yè)信息
設(shè)計(jì)、發(fā)明的目的和基本思路、創(chuàng)新點(diǎn)、技術(shù)關(guān)鍵和主要技術(shù)指標(biāo)
- 針對(duì)中小型規(guī)模網(wǎng)站的站內(nèi)搜索需求,本設(shè)計(jì)基于站內(nèi)網(wǎng)頁(yè)及其連接相對(duì)固定、易于跟蹤分析的特點(diǎn)提出了基于更新信息的網(wǎng)頁(yè)分析方法,據(jù)此開(kāi)發(fā)了一個(gè)站內(nèi)搜索引擎。 利用站內(nèi)網(wǎng)頁(yè)樹(shù)中主網(wǎng)頁(yè)或上層網(wǎng)頁(yè)及超鏈接相對(duì)穩(wěn)定和可跟蹤性,把爬蟲(chóng)定期上網(wǎng)抓取的相鄰時(shí)間間隔的網(wǎng)頁(yè)進(jìn)行對(duì)比分析,可以區(qū)分出以下幾類超鏈接:永不改變的、新增的、位置變化的和消失的,它們對(duì)應(yīng)不同的信息:不變化的鏈接其標(biāo)題具有部門(mén)、類型信息;新增的、位置變化的和消失的鏈接往往是新聞、通告等變化內(nèi)容,這些鏈接對(duì)應(yīng)的網(wǎng)頁(yè)一般是文檔網(wǎng)頁(yè),需要采用一般網(wǎng)頁(yè)分析方法。結(jié)果說(shuō)明這種方法對(duì)網(wǎng)頁(yè)分析是有效的。 主要?jiǎng)?chuàng)新點(diǎn)是網(wǎng)頁(yè)分析理解方法與一般搜索引擎的方法不同,即網(wǎng)頁(yè)分析策略不同。一般搜索引擎的網(wǎng)頁(yè)分析是在爬蟲(chóng)把網(wǎng)頁(yè)抓取后保存起來(lái),然后由網(wǎng)頁(yè)分析程序?qū)ζ浞治?。由于其搜索的網(wǎng)頁(yè)數(shù)量很大且大都是采用寬度優(yōu)先方式爬網(wǎng)頁(yè),網(wǎng)頁(yè)的對(duì)應(yīng)性難以確定,只能利用本網(wǎng)頁(yè)的信息分析,分析中可借助的其他提示信息非常有限,因此分析難度很大。目前文獻(xiàn)介紹的方法均是網(wǎng)頁(yè)內(nèi)容本身分析的方法,這些方法很多還不成熟、處在研究階段。 技術(shù)關(guān)鍵是如何利用不變化的超鏈接標(biāo)題信息和表格標(biāo)題信息等對(duì)網(wǎng)頁(yè)分類以及理解。這些信息有助于分析理解網(wǎng)頁(yè),但如何利用、如何整合這些信息需要進(jìn)一步研究。另一個(gè)問(wèn)題是對(duì)變化的一般文檔網(wǎng)頁(yè)如何分析提取信息。這個(gè)問(wèn)題是搜索引擎面臨的共同問(wèn)題。
科學(xué)性、先進(jìn)性
- 有關(guān)搜索引擎的研究很熱、但真正應(yīng)用到實(shí)際中的很少。究其原因一是Web 中信息的量巨大、異質(zhì)性和缺乏結(jié)構(gòu)性使得自動(dòng)地從中獲取有價(jià)值的信息和數(shù)據(jù)變得十分具有挑戰(zhàn)性。網(wǎng)頁(yè)的機(jī)器理解與主要信息提取是一個(gè)難以徹底解決的問(wèn)題,因?yàn)榫W(wǎng)頁(yè)中可能包含文本、圖像、聲音等多媒體信息,文本的理解涉及到自然語(yǔ)言理解、圖像的理解涉及圖像識(shí)別、聲音的理解涉及聲音識(shí)別等,這些領(lǐng)域目前還在研究之中。 原因之二是在搜索引擎領(lǐng)域,一些優(yōu)秀的實(shí)現(xiàn)方法來(lái)自于一些公司,出于商業(yè)因素的考慮一般不通過(guò)論文公開(kāi)發(fā)表。學(xué)術(shù)界的研究成果雖然公開(kāi),但是被大規(guī)模采用的并不多。 目前站內(nèi)搜索研究中心問(wèn)題與一般搜索引擎研究的內(nèi)容相同:網(wǎng)頁(yè)機(jī)器理解,而且在這方面充分利用站內(nèi)這些特點(diǎn)來(lái)理解還沒(méi)有文獻(xiàn)報(bào)道。考慮到站內(nèi)搜索的自身特點(diǎn),除了利用網(wǎng)頁(yè)本身的信息外,還加入了同一網(wǎng)頁(yè)的更新信息、降低了網(wǎng)頁(yè)分析的難度。在此基礎(chǔ)上設(shè)計(jì)出信息提取算法,可以從網(wǎng)頁(yè)中提取出一些新的有用信息,為建立索引數(shù)據(jù)庫(kù)、進(jìn)行數(shù)據(jù)庫(kù)優(yōu)化做好充分準(zhǔn)備。
獲獎(jiǎng)情況及鑒定結(jié)果
- 校2011年挑戰(zhàn)杯特等獎(jiǎng) 第四屆“挑戰(zhàn)杯”合鍛集團(tuán)省大學(xué)生課外學(xué)術(shù)科技作品競(jìng)賽特等獎(jiǎng)
作品所處階段
- 實(shí)驗(yàn)室階段
技術(shù)轉(zhuǎn)讓方式
- 可以考慮技術(shù)轉(zhuǎn)讓
作品可展示的形式
- 實(shí)物、產(chǎn)品、圖片、現(xiàn)場(chǎng)演示
使用說(shuō)明,技術(shù)特點(diǎn)和優(yōu)勢(shì),適應(yīng)范圍,推廣前景的技術(shù)性說(shuō)明,市場(chǎng)分析,經(jīng)濟(jì)效益預(yù)測(cè)
- 使用說(shuō)明:見(jiàn)“使用說(shuō)明書(shū)”。 作品的技術(shù)特點(diǎn)和優(yōu)勢(shì):本作品技術(shù)的特點(diǎn)主要是在網(wǎng)頁(yè)的機(jī)器理解與主要信息提取方面與其他站內(nèi)搜索引擎不同。在網(wǎng)頁(yè)分析及信息提取方面,我們考慮到站內(nèi)搜索的自身特點(diǎn),除了利用網(wǎng)頁(yè)本身的信息外,還加入了同一網(wǎng)頁(yè)的更新信息。根據(jù)更新性將超鏈接分為四類,然后對(duì)這四類超鏈接分別處理,從而降低了網(wǎng)頁(yè)分析的難度。在此基礎(chǔ)上設(shè)計(jì)出信息提取算法,該算法將網(wǎng)頁(yè)分析工作朝全面理解網(wǎng)頁(yè)內(nèi)容目標(biāo)又推近了一步,為建立索引數(shù)據(jù)庫(kù),進(jìn)行數(shù)據(jù)庫(kù)優(yōu)化打下基礎(chǔ)。 作品適用范圍及推廣前景:該作品適合于任何網(wǎng)站。只要將考察網(wǎng)站信息設(shè)置好,通過(guò)一定時(shí)間分析就可以為該網(wǎng)站提供站內(nèi)索引查詢。因此該作品是一個(gè)通用的站內(nèi)搜索引擎建立軟件,應(yīng)用非常廣泛,其推廣前景非常廣。 市場(chǎng)分析和經(jīng)濟(jì)效益預(yù)測(cè):目前市場(chǎng)上該類軟件還未見(jiàn)出現(xiàn),很多網(wǎng)站還沒(méi)有提供站內(nèi)搜索查詢功能,因此市場(chǎng)前景非常樂(lè)觀。
同類課題研究水平概述
- 我們查詢了“中國(guó)學(xué)術(shù)期刊全文”,在核心期刊中,找尋到搜索引擎相關(guān)的文獻(xiàn)24篇。對(duì)這些文獻(xiàn)的歸納總結(jié)如下: 葉允明等人主要綜述了當(dāng)時(shí)web搜索引擎技術(shù)的發(fā)展和分類情況, 王繼成等人從web檢索角度劃分為三個(gè)層次:搜索引擎與目錄、元搜索引擎、信息檢索agent,其中元搜索引擎研究多搜索引擎集成,信息檢索agent研究滿足用戶需求方面具有可適應(yīng)性、主動(dòng)性、協(xié)作性。 針對(duì)廣域網(wǎng)的海量信息,由單一網(wǎng)頁(yè)爬蟲(chóng)來(lái)獲取信息幾乎不可能,解決方式之一就是分布式Web 爬蟲(chóng)。分布式Web 爬蟲(chóng)是由多個(gè)可并發(fā)獲取Web 信息的Agent 構(gòu)成的Web 爬蟲(chóng)系統(tǒng),每個(gè)Agent 運(yùn)行于不同的計(jì)算資源之上,這些資源或集中部署在同一個(gè)局域網(wǎng)內(nèi)部,或分布在廣域網(wǎng)的不同地理位置和網(wǎng)絡(luò)位置,每個(gè)Agent 以多進(jìn)程或多線程方式通過(guò)并發(fā)保持多個(gè)TCP 鏈接獲取Web 信息。許 笑等人主要探討分布式爬蟲(chóng)技術(shù)和與agent技術(shù)結(jié)合的課題。解決廣域網(wǎng)的海量信息的另一種方式就是讓爬蟲(chóng)對(duì)網(wǎng)頁(yè)過(guò)濾,只對(duì)感興趣的網(wǎng)頁(yè)進(jìn)行處理,蔣宗禮等人討論具有主題內(nèi)容過(guò)濾的爬蟲(chóng)設(shè)計(jì)技術(shù),這些技術(shù)包括數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、自然語(yǔ)言機(jī)器理解等。在解決廣域網(wǎng)海量信息的第二中方式中,除了研究對(duì)網(wǎng)頁(yè)的理解外,還需要對(duì)用戶的檢索意愿做研究,把握用戶的檢索要求, 薛曄偉等人主要討論如何按照用戶查詢意愿來(lái)進(jìn)行網(wǎng)頁(yè)排序。 無(wú)論網(wǎng)絡(luò)爬蟲(chóng)采用何種方式,對(duì)搜索引擎的研制而言核心技術(shù)仍然是對(duì)網(wǎng)頁(yè)內(nèi)容的分析理解方面。吳飛等人主要討論網(wǎng)頁(yè)中各種特定內(nèi)容的分析理解和獲取,如網(wǎng)頁(yè)中Deep Web 數(shù)據(jù)、網(wǎng)絡(luò)話題、數(shù)字版權(quán)信息、網(wǎng)絡(luò)社區(qū)信息、搜索與翻譯結(jié)合、網(wǎng)頁(yè)中的多媒體信息等。這些分析技術(shù)均為針對(duì)特定內(nèi)容的分析技術(shù)、通用性少,有效性待檢驗(yàn)。 李曉紅等人探討元搜索引擎。 劉凡平等人是研討站內(nèi)搜索引擎的文獻(xiàn)。該文通過(guò)對(duì)站內(nèi)搜索的設(shè)計(jì)分析和實(shí)現(xiàn), 以及對(duì)網(wǎng)頁(yè)排序算法的研究, 提出了利用綜合倒排文件和快速排序方法進(jìn)行站內(nèi)網(wǎng)頁(yè)決策性排序, 建立新式站內(nèi)搜索, 并應(yīng)用于實(shí)際. 歐陽(yáng)柳波等人著重研究網(wǎng)站網(wǎng)頁(yè)分類更新策略,說(shuō)明網(wǎng)頁(yè)的更新性是網(wǎng)頁(yè)屬性之一。 本作品是基于網(wǎng)頁(yè)更新性來(lái)分析理解網(wǎng)頁(yè)。通過(guò)核心期刊全文數(shù)據(jù)庫(kù)查詢結(jié)果說(shuō)明目前本作品的工作還未有文獻(xiàn)報(bào)道,具有創(chuàng)新性。