基于強(qiáng)化學(xué)習(xí)的裂腦機(jī)器人的研究
作者:鄭智 崔琢宜 張皓燁 新雅書院
指導(dǎo)老師:徐迎慶 美術(shù)學(xué)院
關(guān)鍵詞:裂腦,強(qiáng)化學(xué)習(xí),策略梯度,LEGO EV3
摘要
裂腦人(split-brain patients)在醫(yī)學(xué)上指代那些胼胝體受損使得左右腦無法正常交流的人。在這項“研究”中,我們使用LEGO Mindstorm搭建了裂腦機(jī)器人,用兩臺互不通信的EV3主機(jī)模擬左右腦,分別控制機(jī)器人的一半身體,同時利用強(qiáng)化學(xué)習(xí)的策略梯度算法使機(jī)器人學(xué)習(xí)如何讓左右腦協(xié)調(diào)工作。經(jīng)過40個回合的學(xué)習(xí),機(jī)器人基本能夠?qū)崿F(xiàn)直線行走;而在不同實驗條件的設(shè)置下,機(jī)器人也會有不同的行為特點。最后,我們將裂腦機(jī)器人的部分行為解釋為左右腦的間接通信,而這與裂腦人的行為有相通之處。
圖1 從裂腦人到裂腦機(jī)器人
圖2 裂腦機(jī)器人硬件
硬件與算法
我們用兩臺互不通信的 EV3 主機(jī)模擬左右腦,分別控制機(jī)器人的一半身體;各連接一個陀螺儀作為感知,各連接一個電機(jī)用來運動。同時利用強(qiáng)化學(xué)習(xí)的策略梯度算法使機(jī)器人學(xué)習(xí)如何讓左右腦協(xié)調(diào)工作。
圖3 強(qiáng)化學(xué)習(xí)的策略梯度算法
實驗結(jié)果
經(jīng)過 40 個回合的學(xué)習(xí),機(jī)器人基本能夠?qū)崿F(xiàn)直線行走,各項表現(xiàn)均顯著提升;而在不同實驗條件的設(shè)置下,機(jī)器人也會表現(xiàn)出不同的行為特點。
圖4 機(jī)器人直線行走情況的變化
圖5 不同獎勵設(shè)置下,平均速度的變化
圖6 不同獎勵設(shè)置下,平均偏轉(zhuǎn)角速度的變化
幾點結(jié)論
兩側(cè)大腦運行著完全相同的程序、在完全對稱的條件下(除了兩側(cè)CPU的運算速度稍有差別),卻能發(fā)展出不對稱的策略;僅僅改變了獎勵,卻能發(fā)展出十分不同的策略。
外部鏈接:https://www.bilibili.com/video/av64273757