国产性70yerg老太,色综合在,国产精品亚洲一区二区无码,无码人妻束缚av又粗又大

首頁 > 求索之路 > 基于強(qiáng)化學(xué)習(xí)的裂腦機(jī)器人的研究
基于強(qiáng)化學(xué)習(xí)的裂腦機(jī)器人的研究
41新雅書院
作品介紹

基于強(qiáng)化學(xué)習(xí)的裂腦機(jī)器人的研究

作者:鄭智 崔琢宜 張皓燁 新雅書院

指導(dǎo)老師:徐迎慶 美術(shù)學(xué)院

關(guān)鍵詞:裂腦,強(qiáng)化學(xué)習(xí),策略梯度,LEGO EV3

 

摘要

裂腦人(split-brain patients)在醫(yī)學(xué)上指代那些胼胝體受損使得左右腦無法正常交流的人。在這項“研究”中,我們使用LEGO Mindstorm搭建了裂腦機(jī)器人,用兩臺互不通信的EV3主機(jī)模擬左右腦,分別控制機(jī)器人的一半身體,同時利用強(qiáng)化學(xué)習(xí)的策略梯度算法使機(jī)器人學(xué)習(xí)如何讓左右腦協(xié)調(diào)工作。經(jīng)過40個回合的學(xué)習(xí),機(jī)器人基本能夠?qū)崿F(xiàn)直線行走;而在不同實驗條件的設(shè)置下,機(jī)器人也會有不同的行為特點。最后,我們將裂腦機(jī)器人的部分行為解釋為左右腦的間接通信,而這與裂腦人的行為有相通之處。

圖1 從裂腦人到裂腦機(jī)器人

圖2 裂腦機(jī)器人硬件

 

硬件與算法

我們用兩臺互不通信的 EV3 主機(jī)模擬左右腦,分別控制機(jī)器人的一半身體;各連接一個陀螺儀作為感知,各連接一個電機(jī)用來運動。同時利用強(qiáng)化學(xué)習(xí)的策略梯度算法使機(jī)器人學(xué)習(xí)如何讓左右腦協(xié)調(diào)工作。

圖3 強(qiáng)化學(xué)習(xí)的策略梯度算法

實驗結(jié)果

經(jīng)過 40 個回合的學(xué)習(xí),機(jī)器人基本能夠?qū)崿F(xiàn)直線行走,各項表現(xiàn)均顯著提升;而在不同實驗條件的設(shè)置下,機(jī)器人也會表現(xiàn)出不同的行為特點。

圖4 機(jī)器人直線行走情況的變化

圖5 不同獎勵設(shè)置下,平均速度的變化

圖6 不同獎勵設(shè)置下,平均偏轉(zhuǎn)角速度的變化

 

幾點結(jié)論

兩側(cè)大腦運行著完全相同的程序、在完全對稱的條件下(除了兩側(cè)CPU的運算速度稍有差別),卻能發(fā)展出不對稱的策略;僅僅改變了獎勵,卻能發(fā)展出十分不同的策略。

 

 

外部鏈接:https://www.bilibili.com/video/av64273757

 

 

評論 文明上網(wǎng)理性發(fā)言,請遵守評論服務(wù)協(xié)議
登錄  登錄后可以發(fā)言~
全部評論
主辦方
承辦方