国产性70yerg老太,色综合在,国产精品亚洲一区二区无码,无码人妻束缚av又粗又大

首頁 > 求索之路 > 基于強化學習的裂腦機器人的研究
基于強化學習的裂腦機器人的研究
41新雅書院
作品介紹

基于強化學習的裂腦機器人的研究

作者:鄭智 崔琢宜 張皓燁 新雅書院

指導老師:徐迎慶 美術學院

關鍵詞:裂腦,強化學習,策略梯度,LEGO EV3

 

摘要

裂腦人(split-brain patients)在醫(yī)學上指代那些胼胝體受損使得左右腦無法正常交流的人。在這項“研究”中,我們使用LEGO Mindstorm搭建了裂腦機器人,用兩臺互不通信的EV3主機模擬左右腦,分別控制機器人的一半身體,同時利用強化學習的策略梯度算法使機器人學習如何讓左右腦協(xié)調工作。經過40個回合的學習,機器人基本能夠實現(xiàn)直線行走;而在不同實驗條件的設置下,機器人也會有不同的行為特點。最后,我們將裂腦機器人的部分行為解釋為左右腦的間接通信,而這與裂腦人的行為有相通之處。

圖1 從裂腦人到裂腦機器人

圖2 裂腦機器人硬件

 

硬件與算法

我們用兩臺互不通信的 EV3 主機模擬左右腦,分別控制機器人的一半身體;各連接一個陀螺儀作為感知,各連接一個電機用來運動。同時利用強化學習的策略梯度算法使機器人學習如何讓左右腦協(xié)調工作。

圖3 強化學習的策略梯度算法

實驗結果

經過 40 個回合的學習,機器人基本能夠實現(xiàn)直線行走,各項表現(xiàn)均顯著提升;而在不同實驗條件的設置下,機器人也會表現(xiàn)出不同的行為特點。

圖4 機器人直線行走情況的變化

圖5 不同獎勵設置下,平均速度的變化

圖6 不同獎勵設置下,平均偏轉角速度的變化

 

幾點結論

兩側大腦運行著完全相同的程序、在完全對稱的條件下(除了兩側CPU的運算速度稍有差別),卻能發(fā)展出不對稱的策略;僅僅改變了獎勵,卻能發(fā)展出十分不同的策略。

 

 

外部鏈接:https://www.bilibili.com/video/av64273757

 

 

評論 文明上網理性發(fā)言,請遵守評論服務協(xié)議
登錄  登錄后可以發(fā)言~
全部評論
主辦方
承辦方