作者:肖光烜 呂天 李永威 計(jì)算機(jī)科學(xué)與技術(shù)系
指導(dǎo)老師:劉知遠(yuǎn) 計(jì)算機(jī)科學(xué)與技術(shù)系
關(guān)鍵詞:深度學(xué)習(xí)、計(jì)算機(jī)視覺、甲骨文、自然語言處理
摘要
深度學(xué)習(xí)需要大數(shù)據(jù)驅(qū)動(dòng),而在甲骨文釋讀領(lǐng)域還未有合適的大規(guī)模數(shù)據(jù)集。我們構(gòu)建了一個(gè)組織良好、噪聲小的甲骨文數(shù)據(jù)集,我們相信這種數(shù)據(jù)集能夠?yàn)榻窈蟮淖詣?dòng)化甲骨文釋讀的研究做出貢獻(xiàn)。
在我們構(gòu)造的數(shù)據(jù)集的基礎(chǔ)上,我們采用計(jì)算機(jī)視覺領(lǐng)域的技術(shù)做到甲骨文字“分類”,即對一個(gè)甲骨文圖片給出其現(xiàn)代漢語或古漢語中對應(yīng)的漢字。同時(shí),我們訓(xùn)練了一個(gè)能夠自動(dòng)構(gòu)建甲骨文的生成對抗網(wǎng)絡(luò),以期能夠捕捉甲骨文中的內(nèi)在結(jié)構(gòu)并發(fā)現(xiàn)未發(fā)現(xiàn)的甲骨文。
構(gòu)建數(shù)據(jù)集
我們對已有的紙質(zhì)甲骨文詞典進(jìn)行了掃描和編排,利用濾波和二值化等圖像處理技術(shù)收集了一個(gè)組織良好、噪聲小、全面的甲骨文數(shù)據(jù)集。該數(shù)據(jù)集由7000余個(gè)甲骨文樣例組成,共有542個(gè)多于10個(gè)樣例的甲骨文,覆蓋了最常見的甲骨文,具有較好的代表性。
圖 1甲骨文字典(左)與對應(yīng)構(gòu)造好的數(shù)據(jù)集(右)
甲骨文識(shí)別
利用目前最先進(jìn)的圖像識(shí)別網(wǎng)絡(luò)ResNet和DenseNet,我們在甲骨文識(shí)別任務(wù)上達(dá)到了很高的準(zhǔn)確率。由于甲骨文識(shí)別可以減輕考古人員篩選甲片的工作量并提高準(zhǔn)確度,這一結(jié)果具有重要現(xiàn)實(shí)意義。使用我們提出的數(shù)據(jù)集進(jìn)行訓(xùn)練,圖像識(shí)別網(wǎng)絡(luò)可以區(qū)分非常形近的甲骨文,例如“月”和“夕”。這也說明我們提出的數(shù)據(jù)集具有良好的清潔度和代表性。
圖 2DenseNet網(wǎng)絡(luò)結(jié)構(gòu)
Model |
Top-1 Accuracy(%) |
Top-5 Accuracy(%) |
ResNet-152 |
38.72 |
63.72 |
DenseNet-121 |
75.14 |
88.82 |
表格 1 甲骨文識(shí)別準(zhǔn)確度
甲骨文生成
我們期望利用生成對抗網(wǎng)絡(luò)(GAN)獲得不存在的甲骨文,從而得到甲骨文字形的一般形式信息。
圖 3生成對抗網(wǎng)絡(luò)結(jié)構(gòu)
但是最原始的生成對抗網(wǎng)絡(luò)產(chǎn)生了嚴(yán)重的過擬合現(xiàn)象,因此我們換用了更為先進(jìn)的WGAN,得到了更為多樣化的甲骨文生成結(jié)果。
圖 4GAN和WGAN生成的不存在的甲骨文及其對應(yīng)的漢字