基于多攝像頭和混合疏導模型的駕駛行為評分系統
作者:牛浩懿、王惠生、相良儒 所屬院系 自動化系
指導老師:胡堅明 所屬院系 自動化系
關鍵詞:車輛重識別、深度強化學習、博弈論
摘要
我們利用路測設備中的多攝像頭感知數據,對視頻數據在仿真系統中進行重建,并作為評分系統的輸入。評分系統分為直道和交叉口環(huán)境下兩部分,直道上采用改造的DQN算法,輸出的Q值函數定義在動作空間當中,對所有動作有著天然的評分屬性;在交叉口處采用解決交叉口擁堵沖突能力強的博弈論方法,并采用博弈論中的支付函數作為輸出。對每一步的Q值或者支付函數值都進行歸一化處理并根據現實中駕駛員選擇的動作形成實時分數,根據評分對駕駛員反饋獎勵,可優(yōu)化駕駛習慣,提升行車安全。
圖 1:整體架構
多攝像頭感知
我們先利用YOLO-v3算法進行車輛物體的目標檢測,之后利用基于時空連續(xù)性的跟蹤算法進行多車輛目標的跟蹤。利用ResNet網絡結構和Triplet Loss方法提取車輛特征并進行車輛重識別,從而實現跨攝像頭車輛的跟蹤。
圖 2:多攝像頭感知模塊流程
交叉口評分決策
從車輛個體的決策行為出發(fā),路口形成一個博弈。由于車輛時刻決策,因此是一個動態(tài)博弈。車輛具有不同排隊優(yōu)先級,每次做出決策時,車輛的狀態(tài)均與上一次做出決策時不同,是結構不同的序貫博弈。車輛只關注眼前幾次的效用,越遠處的效用對當前決策影響越小,引入動態(tài)k級模型。以支付函數值為交叉口環(huán)境下的評分依據。
圖 4:交叉口環(huán)境評分演示
路段評分決策
改造的DQN方法采用柔性可變的狀態(tài)空間,以最緊密的數據組織形式高效地篩選交通狀態(tài)信息,可以適應任何的路段拓撲結構。除此之外在狀態(tài)空間中加入了速度適應項以根據車速調整視野,加入前車是否做出避讓性質的動作這一信息,深化DQN智能體對前車動作的理解。使用連續(xù)獎勵函數對智能體進行密集刺激,提高了學習效果。最終用Q值函數作為路段環(huán)境下的評分依據。
圖 5:路段決策模塊算法
圖 6:路段環(huán)境評分演示