RSS 2020 | 在目標(biāo)、動(dòng)力學(xué)和意圖不確定下的隱含信念空間運(yùn)動(dòng)規(guī)劃
該擾動(dòng)方程的推導(dǎo)過(guò)程與標(biāo)準(zhǔn)的DDP 擾動(dòng)方程推導(dǎo)相似,不同點(diǎn)在于其根據(jù)當(dāng)前時(shí)刻不同隱變量z 的置信度b(z) 進(jìn)行了加權(quán)平均,而且在狀態(tài)轉(zhuǎn)換時(shí)不僅考慮了系統(tǒng)狀態(tài)x 的演變,還考慮了獲得不同的觀測(cè)值時(shí)置信度b 的變化。通過(guò)置信度b 進(jìn)行加權(quán)平均的過(guò)程,實(shí)際上就是把后續(xù)分支節(jié)點(diǎn)進(jìn)行合并的過(guò)程。所以利用該方法,就可以從軌跡樹的葉節(jié)點(diǎn)開始,進(jìn)行遞歸操作直至根節(jié)點(diǎn)為止,對(duì)整顆軌跡樹進(jìn)行后向過(guò)程操作。
由于問題假設(shè)并未對(duì)狀態(tài)轉(zhuǎn)移模型以及損失函數(shù)的形式進(jìn)行約束,所以Q 的形式一般而言是非線性非凸的。為了沿用凸優(yōu)化的流程,我們需要對(duì)Q 進(jìn)行如下所示的二次近似操作。
此時(shí)我們就可以利用標(biāo)準(zhǔn)的凸優(yōu)化方法對(duì)整顆軌跡樹進(jìn)行優(yōu)化操作了。通過(guò)求解上述擾動(dòng)函數(shù)的二次近似函數(shù)的極小值,我們可以得到當(dāng)前時(shí)刻的最優(yōu)動(dòng)作擾動(dòng),如下。
其中k 和K 分別是該時(shí)刻下開環(huán)控制和反饋控制的增益(具體推導(dǎo)過(guò)程與取值見論文)。
四、實(shí)驗(yàn)及結(jié)果
為了進(jìn)行對(duì)比實(shí)驗(yàn)驗(yàn)證PODDP 算法的效果,論文提出了兩種有實(shí)際意義的baseline 算法:
Probability Weighted DDP (PWDDP):其根據(jù)當(dāng)前時(shí)刻的置信度直接對(duì)所有可能性進(jìn)行加權(quán)平均操作,而不考慮由于不同的未來(lái)觀測(cè)值而產(chǎn)生的軌跡分支;
Maximum Likelihood DDP (MLDDP):其只考慮當(dāng)前時(shí)刻下置信度最高的隱變量,而忽略其他的可能性。這兩種baseline 算法都是常見的POMDP 應(yīng)對(duì)策略。
論文提出了三類不確定性,并為每一類不確定性都設(shè)置了一個(gè)實(shí)驗(yàn)場(chǎng)景:
目標(biāo)函數(shù)不確定 (T-Maze 場(chǎng)景):我們的車輛位于一個(gè)T 字型的道路入口處,希望走到一個(gè)不確定的目標(biāo)地點(diǎn)。該目標(biāo)地點(diǎn)可能是道路的左側(cè),也可能是道路的右側(cè),而車輛必須沿側(cè)道路行駛至靠近分叉口的地方才能夠得到更好的觀測(cè),以確定目標(biāo)所處的位置。
本體系統(tǒng)運(yùn)動(dòng)學(xué)規(guī)律不確定(Muddy Track 場(chǎng)景):我們的車輛在一條泥濘的道路上朝一個(gè)目標(biāo)地點(diǎn)行駛,但右側(cè)的道路有一定的可能性會(huì)更加平滑。而我們的車輛必須在行駛中探索右側(cè)道路是否真的更平滑,從而規(guī)劃出一條最優(yōu)的行進(jìn)路線。
其他個(gè)體意圖不確定 (Lane Change 場(chǎng)景):我們的車輛希望并線到左側(cè)車道,可是那里已經(jīng)有另一輛車了。我們需要時(shí)刻評(píng)估對(duì)方是比較合作禮讓的,還是比較沖動(dòng)激進(jìn)的,進(jìn)而確定應(yīng)該超車并線,還是等待對(duì)方先向前走遠(yuǎn)再并線到它后方。
下圖展示了在三種不同的場(chǎng)景下各個(gè)算法的量化表現(xiàn)。在三種場(chǎng)景下,論文提出的 PODDP 算法的累計(jì)實(shí)際損失函數(shù)值均顯著優(yōu)于另外兩種baseline 算法。
下圖展示了PODDP 算法在三中場(chǎng)景下規(guī)劃出的軌跡樹。
論文還加入了一項(xiàng)額外的實(shí)驗(yàn),以進(jìn)一步展示PODDP 算法優(yōu)化出的軌跡的最優(yōu)性。該實(shí)驗(yàn)沿用了T-Maze 場(chǎng)景,在該場(chǎng)景下從小到大調(diào)整在同一位置的觀測(cè)不確定性的大小規(guī)模,從而對(duì)比不同算法在不同的不確定性規(guī)模下的性能。結(jié)果如下圖所示,可見PODDP 算法在不同的不確定性規(guī)模下均顯著優(yōu)于baseline 算法,而且具有更高的穩(wěn)定性。
五、討 論
這項(xiàng)工作結(jié)合了離散化隱變量和連續(xù)空間下的動(dòng)作軌跡優(yōu)化,提出了一種新的微分動(dòng)態(tài)規(guī)劃變體,可以有效地處理連續(xù)空間下的多模態(tài)不確定性POMDP 問題,填補(bǔ)了相關(guān)空白。由于軌跡樹的復(fù)雜度會(huì)隨著觀測(cè)推演的數(shù)量增加而指數(shù)膨脹,所以論文提出了一種層級(jí)PODDP 結(jié)構(gòu),不必在每一個(gè)時(shí)刻都進(jìn)行觀測(cè),以降低運(yùn)算復(fù)雜度,同時(shí)保持了控制輸出的頻率。
值得注意的是,雖然在該論文中設(shè)置的實(shí)驗(yàn)場(chǎng)景均為無(wú)人車應(yīng)用,但是論文提出的PODDP 算法完全可以應(yīng)用在各種不同的機(jī)器人軌跡規(guī)劃和優(yōu)化場(chǎng)景中,處理不同類型的多模態(tài)不確定性。
關(guān)于我“門”
將門是一家以專注于發(fā)掘、加速及投資技術(shù)驅(qū)動(dòng)型創(chuàng)業(yè)公司的新型創(chuàng)投機(jī)構(gòu),旗下涵蓋將門創(chuàng)新服務(wù)、將門技術(shù)社群以及將門創(chuàng)投基金。將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
將門創(chuàng)新服務(wù)專注于使創(chuàng)新的技術(shù)落地于真正的應(yīng)用場(chǎng)景,激活和實(shí)現(xiàn)全新的商業(yè)價(jià)值,服務(wù)于行業(yè)領(lǐng)先企業(yè)和技術(shù)創(chuàng)新型創(chuàng)業(yè)公司。
將門技術(shù)社群專注于幫助技術(shù)創(chuàng)新型的創(chuàng)業(yè)公司提供來(lái)自產(chǎn)、學(xué)、研、創(chuàng)領(lǐng)域的核心技術(shù)專家的技術(shù)分享和學(xué)習(xí)內(nèi)容,使創(chuàng)新成為持續(xù)的核心競(jìng)爭(zhēng)力。
將門創(chuàng)投基金專注于投資通過(guò)技術(shù)創(chuàng)新激活商業(yè)場(chǎng)景,實(shí)現(xiàn)商業(yè)價(jià)值的初創(chuàng)企業(yè),關(guān)注技術(shù)領(lǐng)域包括機(jī)器智能、物聯(lián)網(wǎng)、自然人機(jī)交互、企業(yè)計(jì)算。在近四年的時(shí)間里,將門創(chuàng)投基金已經(jīng)投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數(shù)科技、迪英加科技等數(shù)十家具有高成長(zhǎng)潛力的技術(shù)型創(chuàng)業(yè)公司。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來(lái)的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
11月28日立即下載>> 【白皮書】精準(zhǔn)洞察 無(wú)線掌控——283FC智能自檢萬(wàn)用表
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動(dòng)駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 10 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!