台湾佬无码视频,久久1999精品

注冊登錄

首頁

匠心獨運

天際云想

求索之路

家園新創(chuàng)

團創(chuàng)力量

科創(chuàng)連線

首頁 > 天際云想 > 基于圖像識別技術的甲骨文數(shù)據(jù)系統(tǒng)

基于圖像識別技術的甲骨文數(shù)據(jù)系統(tǒng)

22計算機系

作品介紹

基于圖像識別技術的甲骨文數(shù)據(jù)系統(tǒng)

作者：白鈺卓計算機系

指導老師：劉知遠計算機系

關鍵詞：甲骨文數(shù)據(jù)庫圖像識別

摘要

本項目致力于使用計算機技術構(gòu)建甲骨文數(shù)據(jù)庫與甲骨文單字識別系統(tǒng)，并通過公開數(shù)據(jù)平臺向社會共享項目成果。首先，我們通過對現(xiàn)有甲骨文資料進行處理，獲得單字與甲片雙向?qū)募毩６刃蛄谢坠俏臄?shù)據(jù)庫，為后續(xù)研究打下基礎；此后，我們基于圖像識別技術實現(xiàn)甲骨文單字識別，提高甲骨文數(shù)據(jù)電子化的效率，并為古文字學專家提供參考；完成前兩步后，我們搭建了公開網(wǎng)站，整合了包含甲片和單字的數(shù)據(jù)庫與單字識別接口，向社會共享我們的研究成果。

項目背景

甲骨文是中國殷商時期的成熟文字系統(tǒng)，是已知的最早漢字形態(tài)。其破譯與釋讀是挖掘甲片史料信息的先決條件，但其中的定字環(huán)節(jié)遇到了極大困難——由于刻劃復雜以及甲片記載信息缺失，學者考據(jù)時會聯(lián)系各部分材料反復比對。因此古文字學者常需要熟記眾多大部頭著錄，深耕領域數(shù)十年才能做出成果，這使得青年人才望而卻步，甲骨文成為冷門絕學。本項目分為甲骨文數(shù)據(jù)庫構(gòu)建、甲骨單字識別及公開平臺搭建三部分，希望降低甲骨文研究門檻，便利古文字學者，也希望對破譯更多甲骨文提供參考，推動古文字學進展，為傳承優(yōu)秀傳統(tǒng)文化作出貢獻。

圖1 甲骨文公開數(shù)據(jù)庫平臺

甲骨文公開數(shù)據(jù)庫

依托現(xiàn)有甲骨文考證與編纂資料，本項目構(gòu)建了甲骨文單字與甲片的公開數(shù)據(jù)庫。一方面，通過對《殷墟甲骨文摹釋全編》進行數(shù)字化，本項目獲得了以規(guī)范摹寫字形式書寫的細粒度語料庫，其中包含《甲骨文全集》前5000張甲片的單字級別序列化內(nèi)容及對應的現(xiàn)代漢字翻譯，此部分數(shù)據(jù)應為目前公開的最大規(guī)模的甲骨文序列化數(shù)據(jù)庫；另一方面，通過對《新甲骨文編》進行數(shù)字化，本項目獲得了各甲骨文單字來自真實場景的不同字形拓寫字集合，豐富了現(xiàn)存語料的種類，拓展了數(shù)據(jù)庫的應用場景。綜合兩方面數(shù)據(jù)，并實現(xiàn)了同字對應后，數(shù)據(jù)庫中實現(xiàn)了單字拓寫字、摹寫字、對應漢字、序列化語句、甲片圖片的多向檢索，為甲骨學研究提供了有力的支撐，細粒度語料也是基于序列化數(shù)據(jù)的甲骨文語言模型不可或缺的要素。

圖2 數(shù)據(jù)庫架構(gòu)

圖3 公開數(shù)據(jù)平臺甲片文檔展示

甲骨文單字識別系統(tǒng)

本項目以甲骨文數(shù)據(jù)庫中的甲片拓寫字為數(shù)據(jù)集，搭建了甲骨文識別系統(tǒng)。由于部分甲骨文單字的數(shù)據(jù)較少，本項目采用了few-shot learning的方式訓練識別模型，并對Prototypical Network等三個常用于few-shot learning與文字識別的模型進行了對比，以選出最佳模型。最終采用的模型在每個甲骨文單字擁有超過12個拓寫樣本的甲骨文數(shù)據(jù)集上可以達到81.4%的正確率，而在整體數(shù)據(jù)集上（超20000個樣本，其中包含1000余個只有2-11個樣本的單字）達到了63.9%的正確率，說明模型具有較強的泛化能力。

圖4 ProtoNet示意圖

圖5 公開數(shù)據(jù)平臺單字搜索結(jié)果

外部鏈接：公開數(shù)據(jù)平臺網(wǎng)址http://123.56.70.83:8080/

作品PPT

評論文明上網(wǎng)理性發(fā)言，請遵守評論服務協(xié)議

登錄登錄后可以發(fā)言~

全部評論

主辦方

承辦方

精品无码久久久久久国产←,欧美91射综合,全国中文字幕亚洲网站,欧洲性爱一区二区