基于圖像識別技術的甲骨文數(shù)據(jù)系統(tǒng)
作者:白鈺卓 計算機系
指導老師:劉知遠 計算機系
關鍵詞:甲骨文 數(shù)據(jù)庫 圖像識別
摘要
本項目致力于使用計算機技術構(gòu)建甲骨文數(shù)據(jù)庫與甲骨文單字識別系統(tǒng),并通過公開數(shù)據(jù)平臺向社會共享項目成果。首先,我們通過對現(xiàn)有甲骨文資料進行處理,獲得單字與甲片雙向?qū)募毩6刃蛄谢坠俏臄?shù)據(jù)庫,為后續(xù)研究打下基礎;此后,我們基于圖像識別技術實現(xiàn)甲骨文單字識別,提高甲骨文數(shù)據(jù)電子化的效率,并為古文字學專家提供參考;完成前兩步后,我們搭建了公開網(wǎng)站,整合了包含甲片和單字的數(shù)據(jù)庫與單字識別接口,向社會共享我們的研究成果。
項目背景
甲骨文是中國殷商時期的成熟文字系統(tǒng),是已知的最早漢字形態(tài)。其破譯與釋讀是挖掘甲片史料信息的先決條件,但其中的定字環(huán)節(jié)遇到了極大困難——由于刻劃復雜以及甲片記載信息缺失,學者考據(jù)時會聯(lián)系各部分材料反復比對。因此古文字學者常需要熟記眾多大部頭著錄,深耕領域數(shù)十年才能做出成果,這使得青年人才望而卻步,甲骨文成為冷門絕學。本項目分為甲骨文數(shù)據(jù)庫構(gòu)建、甲骨單字識別及公開平臺搭建三部分,希望降低甲骨文研究門檻,便利古文字學者,也希望對破譯更多甲骨文提供參考,推動古文字學進展,為傳承優(yōu)秀傳統(tǒng)文化作出貢獻。
圖1 甲骨文公開數(shù)據(jù)庫平臺
甲骨文公開數(shù)據(jù)庫
依托現(xiàn)有甲骨文考證與編纂資料,本項目構(gòu)建了甲骨文單字與甲片的公開數(shù)據(jù)庫。一方面,通過對《殷墟甲骨文摹釋全編》進行數(shù)字化,本項目獲得了以規(guī)范摹寫字形式書寫的細粒度語料庫,其中包含《甲骨文全集》前5000張甲片的單字級別序列化內(nèi)容及對應的現(xiàn)代漢字翻譯,此部分數(shù)據(jù)應為目前公開的最大規(guī)模的甲骨文序列化數(shù)據(jù)庫;另一方面,通過對《新甲骨文編》進行數(shù)字化,本項目獲得了各甲骨文單字來自真實場景的不同字形拓寫字集合,豐富了現(xiàn)存語料的種類,拓展了數(shù)據(jù)庫的應用場景。綜合兩方面數(shù)據(jù),并實現(xiàn)了同字對應后,數(shù)據(jù)庫中實現(xiàn)了單字拓寫字、摹寫字、對應漢字、序列化語句、甲片圖片的多向檢索,為甲骨學研究提供了有力的支撐,細粒度語料也是基于序列化數(shù)據(jù)的甲骨文語言模型不可或缺的要素。
圖2 數(shù)據(jù)庫架構(gòu)
圖3 公開數(shù)據(jù)平臺甲片文檔展示
甲骨文單字識別系統(tǒng)
本項目以甲骨文數(shù)據(jù)庫中的甲片拓寫字為數(shù)據(jù)集,搭建了甲骨文識別系統(tǒng)。由于部分甲骨文單字的數(shù)據(jù)較少,本項目采用了few-shot learning的方式訓練識別模型,并對Prototypical Network等三個常用于few-shot learning與文字識別的模型進行了對比,以選出最佳模型。最終采用的模型在每個甲骨文單字擁有超過12個拓寫樣本的甲骨文數(shù)據(jù)集上可以達到81.4%的正確率,而在整體數(shù)據(jù)集上(超20000個樣本,其中包含1000余個只有2-11個樣本的單字)達到了63.9%的正確率,說明模型具有較強的泛化能力。
圖4 ProtoNet示意圖
圖5 公開數(shù)據(jù)平臺單字搜索結(jié)果
外部鏈接:公開數(shù)據(jù)平臺網(wǎng)址http://123.56.70.83:8080/