作者:肖光烜 呂天 李永威 計算機科學與技術系
指導老師:劉知遠 計算機科學與技術系
關鍵詞:深度學習、計算機視覺、甲骨文、自然語言處理
摘要
深度學習需要大數據驅動,而在甲骨文釋讀領域還未有合適的大規(guī)模數據集。我們構建了一個組織良好、噪聲小的甲骨文數據集,我們相信這種數據集能夠為今后的自動化甲骨文釋讀的研究做出貢獻。
在我們構造的數據集的基礎上,我們采用計算機視覺領域的技術做到甲骨文字“分類”,即對一個甲骨文圖片給出其現(xiàn)代漢語或古漢語中對應的漢字。同時,我們訓練了一個能夠自動構建甲骨文的生成對抗網絡,以期能夠捕捉甲骨文中的內在結構并發(fā)現(xiàn)未發(fā)現(xiàn)的甲骨文。
構建數據集
我們對已有的紙質甲骨文詞典進行了掃描和編排,利用濾波和二值化等圖像處理技術收集了一個組織良好、噪聲小、全面的甲骨文數據集。該數據集由7000余個甲骨文樣例組成,共有542個多于10個樣例的甲骨文,覆蓋了最常見的甲骨文,具有較好的代表性。
圖 1甲骨文字典(左)與對應構造好的數據集(右)
甲骨文識別
利用目前最先進的圖像識別網絡ResNet和DenseNet,我們在甲骨文識別任務上達到了很高的準確率。由于甲骨文識別可以減輕考古人員篩選甲片的工作量并提高準確度,這一結果具有重要現(xiàn)實意義。使用我們提出的數據集進行訓練,圖像識別網絡可以區(qū)分非常形近的甲骨文,例如“月”和“夕”。這也說明我們提出的數據集具有良好的清潔度和代表性。
圖 2DenseNet網絡結構
Model |
Top-1 Accuracy(%) |
Top-5 Accuracy(%) |
ResNet-152 |
38.72 |
63.72 |
DenseNet-121 |
75.14 |
88.82 |
表格 1 甲骨文識別準確度
甲骨文生成
我們期望利用生成對抗網絡(GAN)獲得不存在的甲骨文,從而得到甲骨文字形的一般形式信息。
圖 3生成對抗網絡結構
但是最原始的生成對抗網絡產生了嚴重的過擬合現(xiàn)象,因此我們換用了更為先進的WGAN,得到了更為多樣化的甲骨文生成結果。
圖 4GAN和WGAN生成的不存在的甲骨文及其對應的漢字