基于圖像識(shí)別技術(shù)的甲骨文數(shù)據(jù)系統(tǒng)
作者:白鈺卓 計(jì)算機(jī)系
指導(dǎo)老師:劉知遠(yuǎn) 計(jì)算機(jī)系
關(guān)鍵詞:甲骨文 數(shù)據(jù)庫(kù) 圖像識(shí)別
摘要
本項(xiàng)目致力于使用計(jì)算機(jī)技術(shù)構(gòu)建甲骨文數(shù)據(jù)庫(kù)與甲骨文單字識(shí)別系統(tǒng),并通過(guò)公開數(shù)據(jù)平臺(tái)向社會(huì)共享項(xiàng)目成果。首先,我們通過(guò)對(duì)現(xiàn)有甲骨文資料進(jìn)行處理,獲得單字與甲片雙向?qū)?yīng)的細(xì)粒度序列化甲骨文數(shù)據(jù)庫(kù),為后續(xù)研究打下基礎(chǔ);此后,我們基于圖像識(shí)別技術(shù)實(shí)現(xiàn)甲骨文單字識(shí)別,提高甲骨文數(shù)據(jù)電子化的效率,并為古文字學(xué)專家提供參考;完成前兩步后,我們搭建了公開網(wǎng)站,整合了包含甲片和單字的數(shù)據(jù)庫(kù)與單字識(shí)別接口,向社會(huì)共享我們的研究成果。
項(xiàng)目背景
甲骨文是中國(guó)殷商時(shí)期的成熟文字系統(tǒng),是已知的最早漢字形態(tài)。其破譯與釋讀是挖掘甲片史料信息的先決條件,但其中的定字環(huán)節(jié)遇到了極大困難——由于刻劃復(fù)雜以及甲片記載信息缺失,學(xué)者考據(jù)時(shí)會(huì)聯(lián)系各部分材料反復(fù)比對(duì)。因此古文字學(xué)者常需要熟記眾多大部頭著錄,深耕領(lǐng)域數(shù)十年才能做出成果,這使得青年人才望而卻步,甲骨文成為冷門絕學(xué)。本項(xiàng)目分為甲骨文數(shù)據(jù)庫(kù)構(gòu)建、甲骨單字識(shí)別及公開平臺(tái)搭建三部分,希望降低甲骨文研究門檻,便利古文字學(xué)者,也希望對(duì)破譯更多甲骨文提供參考,推動(dòng)古文字學(xué)進(jìn)展,為傳承優(yōu)秀傳統(tǒng)文化作出貢獻(xiàn)。
圖1 甲骨文公開數(shù)據(jù)庫(kù)平臺(tái)
甲骨文公開數(shù)據(jù)庫(kù)
依托現(xiàn)有甲骨文考證與編纂資料,本項(xiàng)目構(gòu)建了甲骨文單字與甲片的公開數(shù)據(jù)庫(kù)。一方面,通過(guò)對(duì)《殷墟甲骨文摹釋全編》進(jìn)行數(shù)字化,本項(xiàng)目獲得了以規(guī)范摹寫字形式書寫的細(xì)粒度語(yǔ)料庫(kù),其中包含《甲骨文全集》前5000張甲片的單字級(jí)別序列化內(nèi)容及對(duì)應(yīng)的現(xiàn)代漢字翻譯,此部分?jǐn)?shù)據(jù)應(yīng)為目前公開的最大規(guī)模的甲骨文序列化數(shù)據(jù)庫(kù);另一方面,通過(guò)對(duì)《新甲骨文編》進(jìn)行數(shù)字化,本項(xiàng)目獲得了各甲骨文單字來(lái)自真實(shí)場(chǎng)景的不同字形拓寫字集合,豐富了現(xiàn)存語(yǔ)料的種類,拓展了數(shù)據(jù)庫(kù)的應(yīng)用場(chǎng)景。綜合兩方面數(shù)據(jù),并實(shí)現(xiàn)了同字對(duì)應(yīng)后,數(shù)據(jù)庫(kù)中實(shí)現(xiàn)了單字拓寫字、摹寫字、對(duì)應(yīng)漢字、序列化語(yǔ)句、甲片圖片的多向檢索,為甲骨學(xué)研究提供了有力的支撐,細(xì)粒度語(yǔ)料也是基于序列化數(shù)據(jù)的甲骨文語(yǔ)言模型不可或缺的要素。
圖2 數(shù)據(jù)庫(kù)架構(gòu)
圖3 公開數(shù)據(jù)平臺(tái)甲片文檔展示
甲骨文單字識(shí)別系統(tǒng)
本項(xiàng)目以甲骨文數(shù)據(jù)庫(kù)中的甲片拓寫字為數(shù)據(jù)集,搭建了甲骨文識(shí)別系統(tǒng)。由于部分甲骨文單字的數(shù)據(jù)較少,本項(xiàng)目采用了few-shot learning的方式訓(xùn)練識(shí)別模型,并對(duì)Prototypical Network等三個(gè)常用于few-shot learning與文字識(shí)別的模型進(jìn)行了對(duì)比,以選出最佳模型。最終采用的模型在每個(gè)甲骨文單字擁有超過(guò)12個(gè)拓寫樣本的甲骨文數(shù)據(jù)集上可以達(dá)到81.4%的正確率,而在整體數(shù)據(jù)集上(超20000個(gè)樣本,其中包含1000余個(gè)只有2-11個(gè)樣本的單字)達(dá)到了63.9%的正確率,說(shuō)明模型具有較強(qiáng)的泛化能力。
圖4 ProtoNet示意圖
圖5 公開數(shù)據(jù)平臺(tái)單字搜索結(jié)果
外部鏈接:公開數(shù)據(jù)平臺(tái)網(wǎng)址http://123.56.70.83:8080/