基于強化學習的裂腦機器人的研究
作者:鄭智 崔琢宜 張皓燁 新雅書院
指導老師:徐迎慶 美術學院
關鍵詞:裂腦,強化學習,策略梯度,LEGO EV3
摘要
裂腦人(split-brain patients)在醫(yī)學上指代那些胼胝體受損使得左右腦無法正常交流的人。在這項“研究”中,我們使用LEGO Mindstorm搭建了裂腦機器人,用兩臺互不通信的EV3主機模擬左右腦,分別控制機器人的一半身體,同時利用強化學習的策略梯度算法使機器人學習如何讓左右腦協(xié)調工作。經過40個回合的學習,機器人基本能夠實現(xiàn)直線行走;而在不同實驗條件的設置下,機器人也會有不同的行為特點。最后,我們將裂腦機器人的部分行為解釋為左右腦的間接通信,而這與裂腦人的行為有相通之處。
圖1 從裂腦人到裂腦機器人
圖2 裂腦機器人硬件
硬件與算法
我們用兩臺互不通信的 EV3 主機模擬左右腦,分別控制機器人的一半身體;各連接一個陀螺儀作為感知,各連接一個電機用來運動。同時利用強化學習的策略梯度算法使機器人學習如何讓左右腦協(xié)調工作。
圖3 強化學習的策略梯度算法
實驗結果
經過 40 個回合的學習,機器人基本能夠實現(xiàn)直線行走,各項表現(xiàn)均顯著提升;而在不同實驗條件的設置下,機器人也會表現(xiàn)出不同的行為特點。
圖4 機器人直線行走情況的變化
圖5 不同獎勵設置下,平均速度的變化
圖6 不同獎勵設置下,平均偏轉角速度的變化
幾點結論
兩側大腦運行著完全相同的程序、在完全對稱的條件下(除了兩側CPU的運算速度稍有差別),卻能發(fā)展出不對稱的策略;僅僅改變了獎勵,卻能發(fā)展出十分不同的策略。
外部鏈接:https://www.bilibili.com/video/av64273757