基于深度學(xué)習(xí)算法的樂譜生成器:Music Eye
作者:周恩賢 計算機系
指導(dǎo)老師:胡曉林 計算機系
關(guān)鍵詞:深度學(xué)習(xí)、CNN、attention、樂譜生成、音樂
摘要
我們通過改進(jìn)一個現(xiàn)有模型,提出了一個基于全卷積神經(jīng)網(wǎng)絡(luò)的聽譜模型Music Eye,能夠高效快速地實現(xiàn)音頻文件向midi事件的轉(zhuǎn)換,并且能在有和弦、多音色、多聲部的復(fù)雜的條件下實現(xiàn)高準(zhǔn)確率的識別。
數(shù)據(jù)集制作
我們使用midi文件生成帶標(biāo)注的數(shù)據(jù)。通過timidity實現(xiàn)midi文件到音頻文件的轉(zhuǎn)換,并使用常數(shù)Q變換得到的頻譜圖。為了讓模型獲得相位信息,我們將頻譜圖分為模、實部、虛部三個通道。我們通過解析midi文件獲得對應(yīng)的按鍵事件。
為了防止過擬合,我們使用以下幾個數(shù)據(jù)增強方法:1.加入麥克風(fēng)錄制的噪音。2.對樂曲隨機移調(diào),變速,并在樂曲頭尾插入可變長度的空白。3.為各聲部隨機替換樂器。
考慮到運算資源的開銷,我們限定每個樣本的時間長度為8s。下面是數(shù)據(jù)的一個樣例:
圖1.輸入數(shù)據(jù)樣例
從左到右依次為頻譜圖的實部,頻譜圖的虛部,對應(yīng)的midi事件。
模型介紹
我們所知的一個相關(guān)模型為[1],我們對該模型進(jìn)行了改進(jìn)。
將識譜問題表示為一個像素級二分類問題,對于常數(shù)Q變換產(chǎn)生的頻譜圖,我們讓頻率的坐標(biāo)為對數(shù)坐標(biāo),并讓一個鋼琴按鍵對應(yīng)頻率軸上的4個像素。如圖。模型所做的是為每一個時刻每一個按鍵輸出按鍵是否被按下,按下是1,沒按下是0。
圖2.模型介紹示意圖
其中,藍(lán)色框從左到右依次為C的根音、一階泛音、二階泛音、三階泛音,而我們最終只需要根音。由于音頻是可以重疊的,根音和泛音可能會疊加在一起,會導(dǎo)致根音難以分離,所以這是實現(xiàn)的難點之一。
為了解決泛音的問題,我們在第xx和xx層使用很寬(相當(dāng)于4個八度)的卷積核。為了保留較高的時間分辨率,我們只對頻率軸進(jìn)行池化(池化是由卷積實現(xiàn)的)。模型如圖所示:
圖3. Music Eye 神經(jīng)網(wǎng)絡(luò)模型
真實樣本測試
由于計算資源有限,雖然我們準(zhǔn)備了上萬首midi文件,但是我們只用了其中的37首,每首通過數(shù)據(jù)增強得到4個樣本,共計148個樣本。但是模型依然表現(xiàn)出良好的性能,處理速度約為每0.5s能處理8s的錄音。我們在下列幾個數(shù)據(jù)上進(jìn)行了測試,難度由低到高。為了能有更加直觀的感受,我們在附件中提供了輸入音頻與從輸出中重構(gòu)的音頻。
1. 測試集中的midi文件:千本櫻,時代前進(jìn)
2.YouTube上鋼琴彈奏的錄音: Chopin
3.揚聲器播放并用麥克風(fēng)錄制的錄音: 卡農(nóng)
我們發(fā)現(xiàn)模型仍有許多不足:1.不能準(zhǔn)確識別音長、存在漏音和多音的現(xiàn)象。2.對midi音色過擬合。3.在麥克風(fēng)錄音時受到嚴(yán)重干擾。
因此在下一步我們打算:1.加入注意力機制,對音符序列進(jìn)行建模。2.加大數(shù)據(jù)量。3.使用增加一些降噪手段,同時更真實的模擬麥克風(fēng)的濾波。
真實樣本結(jié)果
部分輸入音頻與輸出音頻結(jié)果如下(上方為輸入音頻,下方為輸出后重構(gòu)的音頻),鏈接https://cloud.tsinghua.edu.cn/d/9273445e0ae54154a514/
1.千本櫻
【音頻:千本櫻-輸入】
【音頻:千本櫻-重構(gòu)】
2.卡農(nóng)
【音頻:卡農(nóng)-輸入】
【音頻:卡農(nóng)-重構(gòu)】
3.Chopin
【音頻:Chopin-輸入】
【音頻:Chopin-重構(gòu)】
4.時代前進(jìn)
【音頻:時代前進(jìn)-輸入】
【音頻:時代前進(jìn)-重構(gòu)】
文獻(xiàn)引用
[1].https://www.lunaverus.com/cnn