作者:肖光烜 呂天 李永威 計算機科學(xué)與技術(shù)系
指導(dǎo)老師:劉知遠 計算機科學(xué)與技術(shù)系
關(guān)鍵詞:深度學(xué)習(xí)、計算機視覺、甲骨文、自然語言處理
摘要
深度學(xué)習(xí)需要大數(shù)據(jù)驅(qū)動,而在甲骨文釋讀領(lǐng)域還未有合適的大規(guī)模數(shù)據(jù)集。我們構(gòu)建了一個組織良好、噪聲小的甲骨文數(shù)據(jù)集,我們相信這種數(shù)據(jù)集能夠為今后的自動化甲骨文釋讀的研究做出貢獻。
在我們構(gòu)造的數(shù)據(jù)集的基礎(chǔ)上,我們采用計算機視覺領(lǐng)域的技術(shù)做到甲骨文字“分類”,即對一個甲骨文圖片給出其現(xiàn)代漢語或古漢語中對應(yīng)的漢字。同時,我們訓(xùn)練了一個能夠自動構(gòu)建甲骨文的生成對抗網(wǎng)絡(luò),以期能夠捕捉甲骨文中的內(nèi)在結(jié)構(gòu)并發(fā)現(xiàn)未發(fā)現(xiàn)的甲骨文。
構(gòu)建數(shù)據(jù)集
我們對已有的紙質(zhì)甲骨文詞典進行了掃描和編排,利用濾波和二值化等圖像處理技術(shù)收集了一個組織良好、噪聲小、全面的甲骨文數(shù)據(jù)集。該數(shù)據(jù)集由7000余個甲骨文樣例組成,共有542個多于10個樣例的甲骨文,覆蓋了最常見的甲骨文,具有較好的代表性。
圖 1甲骨文字典(左)與對應(yīng)構(gòu)造好的數(shù)據(jù)集(右)
甲骨文識別
利用目前最先進的圖像識別網(wǎng)絡(luò)ResNet和DenseNet,我們在甲骨文識別任務(wù)上達到了很高的準確率。由于甲骨文識別可以減輕考古人員篩選甲片的工作量并提高準確度,這一結(jié)果具有重要現(xiàn)實意義。使用我們提出的數(shù)據(jù)集進行訓(xùn)練,圖像識別網(wǎng)絡(luò)可以區(qū)分非常形近的甲骨文,例如“月”和“夕”。這也說明我們提出的數(shù)據(jù)集具有良好的清潔度和代表性。
圖 2DenseNet網(wǎng)絡(luò)結(jié)構(gòu)
Model |
Top-1 Accuracy(%) |
Top-5 Accuracy(%) |
ResNet-152 |
38.72 |
63.72 |
DenseNet-121 |
75.14 |
88.82 |
表格 1 甲骨文識別準確度
甲骨文生成
我們期望利用生成對抗網(wǎng)絡(luò)(GAN)獲得不存在的甲骨文,從而得到甲骨文字形的一般形式信息。
圖 3生成對抗網(wǎng)絡(luò)結(jié)構(gòu)
但是最原始的生成對抗網(wǎng)絡(luò)產(chǎn)生了嚴重的過擬合現(xiàn)象,因此我們換用了更為先進的WGAN,得到了更為多樣化的甲骨文生成結(jié)果。
圖 4GAN和WGAN生成的不存在的甲骨文及其對應(yīng)的漢字