RSS 2020 | 在目標、動力學和意圖不確定下的隱含信念空間運動規(guī)劃
二、問題規(guī)范化
該論文考慮的是如下圖所示的POMDP 問題:系統(tǒng)處于連續(xù)的狀態(tài)-動作-觀測空間中,而系統(tǒng)的狀態(tài)轉移除了受到上一時刻的狀態(tài)和動作影響,還由一個離散的隱變量z 決定,而每一時刻的觀測量則由當前時刻的系統(tǒng)狀態(tài)以及隱變量共同決定。其中隱變量z 可用于表示系統(tǒng)中不確定性的不同模態(tài),如旁側車輛駕駛者的性格、不同行進路線的路況、路面的物理狀況等。
對隱變量z 的不同可能性的置信度b(z),我們可以通過如下定義進行更新。
問題的最終目標是對行為策略π 進行優(yōu)化,從而使得累計損失函數值 J 達到最低。
其中l(wèi) 和lf分別為根據置信度b 加權平均得到的過程損失函數和最終損失函數。由該公式取最優(yōu)行為策略π* 后得出的值函數V 可以表示成貝爾曼方程形式,進行遞歸處理。
三、方 法
論文提出了一種新的微分動態(tài)規(guī)劃(DDP)算法,Partially Observable Differential Dynamic Programming (PODDP),可用于解決連續(xù)空間下的POMDP 問題。與一般的iLQG/DDP 算法相似,PODDP 也把流程分為了前向過程(Forward Pass)和后向過程(Backward Pass),并對動作序列進行迭代優(yōu)化。
1. 前向過程在前向過程進行前,動作序列U = { u0, u1, …, uT-1 } 需要預先給定。在初始化的前向過程中,一般使用隨機生成的動作序列,或者通過某些前導知識有規(guī)律地生成動作序列。在此后的過程中,將使用前一次優(yōu)化得到的動作序列,進行迭代優(yōu)化。
在確定性系統(tǒng)中,由于狀態(tài)轉移過程是確定的,故給定的動作序列將衍生出一條鏈式的狀態(tài)序列。但在我們考慮的系統(tǒng)中,由于多模態(tài)不確定性的存在,類比于離散空間下的POMDP 問題,每一個節(jié)點都可以根據隱變量z 的不同取值可能性,延伸出多個分支,最終形成一個樹狀的軌跡推演,即軌跡樹(trajectory tree),如上圖所示。
為了更直觀地理解,我們可以考慮一個公路上的變道場景。如下圖,我們的汽車(紅色)希望變道到左側車道,可是左側車道上已經有一輛車了。我們在進行軌跡優(yōu)化的時候,將未來可能獲得的關于旁側車輛駕駛者性格的觀測納入考慮當中,對方可能是合作性格的,也可能是激進性格的,這兩種性格分別對應兩個不同的模態(tài)。在向前推演的時候,根據這兩種不同模態(tài)的最大似然值進行分支,獲得軌跡推演樹。每一條從根節(jié)點到葉節(jié)點的完整支路對應一條可能發(fā)生的軌跡。
2. 后向過程為了對軌跡樹進行優(yōu)化,我們首先定義值函數擾動方程Qt以描述在某一時刻t 下系統(tǒng)狀態(tài)和動作的擾動對值函數的影響。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業(yè)年度評選
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 4 拐點已至!匯川領跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 5 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 6 隱退4年后,張一鳴久違現身!互聯網大佬正集體殺回
- 7 L3自動駕駛延期,逼出車企技術自我淘汰
- 8 谷歌“香蕉”爆火啟示:國產垂類AI的危機還是轉機?
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 10 機器人9月大事件|3家國產機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!