谷歌DADS算法助力智能體實(shí)現(xiàn)多樣化行為發(fā)現(xiàn)
近年來(lái)強(qiáng)化學(xué)習(xí)的高速發(fā)展已經(jīng)證明監(jiān)督強(qiáng)化學(xué)習(xí)可以在真實(shí)世界中處理包括任意物體的抓取、靈巧的運(yùn)動(dòng)等復(fù)雜的任務(wù)。然而利用精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)來(lái)教會(huì)智能體進(jìn)行復(fù)雜的行為卻面臨著顯著的局限性。一方面在設(shè)計(jì)損失函數(shù)上需要大量的工程性工作,對(duì)于大量任務(wù)來(lái)說(shuō)幾乎是不可能的。另一方面針對(duì)真實(shí)環(huán)境設(shè)計(jì)獎(jiǎng)勵(lì),其復(fù)雜性不僅來(lái)自于獎(jiǎng)勵(lì)函數(shù)本身,同時(shí)還需要一系列的環(huán)境基礎(chǔ)設(shè)施(額外的傳感器)或手工標(biāo)注的目標(biāo)狀態(tài)來(lái)進(jìn)行輔助。這種獎(jiǎng)勵(lì)函數(shù)工程方式顯示了智能體學(xué)習(xí)復(fù)雜行為的過(guò)程,而無(wú)監(jiān)督學(xué)習(xí)的出現(xiàn)為這一問(wèn)題提供了潛在的解決思路。
在監(jiān)督強(qiáng)化學(xué)習(xí)中,來(lái)自環(huán)境的外部獎(jiǎng)勵(lì)將引導(dǎo)智能體學(xué)習(xí)期待的行為,強(qiáng)化對(duì)環(huán)境進(jìn)行期待的行為改造。而在非監(jiān)督強(qiáng)化學(xué)習(xí)中,整體則利用內(nèi)在的獎(jiǎng)勵(lì)函數(shù)(例如嘗試環(huán)境中不同事物的好奇心)來(lái)生成訓(xùn)練信號(hào),從而可以獲得更為廣泛的任務(wù)無(wú)關(guān)的技能行為。內(nèi)部獎(jiǎng)勵(lì)函數(shù)可以繞過(guò)外部獎(jiǎng)勵(lì)函數(shù)特有的工程問(wèn)題,在無(wú)需額外設(shè)計(jì)的情況下適用于更廣泛更通用的任務(wù)上去。雖然已經(jīng)有很多研究人員聚焦于實(shí)現(xiàn)非監(jiān)督強(qiáng)化學(xué)習(xí)的不同手段,但這是一個(gè)嚴(yán)重欠約束的問(wèn)題,沒(méi)有環(huán)境獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)是很難學(xué)習(xí)到有用的行為的。那么主體和環(huán)境間交互的有效特性是否可以幫助發(fā)現(xiàn)更好的行為(技能)呢?
這篇文章中將介紹關(guān)于非監(jiān)督強(qiáng)化學(xué)習(xí)的最新研究。在DADS(Dynamics-Aware Unsupervised Discovery of Skills)方法中為非監(jiān)督學(xué)習(xí)引入了可預(yù)測(cè)的優(yōu)化目標(biāo),將技能的基礎(chǔ)特性視為可以對(duì)環(huán)境帶來(lái)可預(yù)測(cè)的改變,基于這一觀點(diǎn)開(kāi)發(fā)出了非監(jiān)督強(qiáng)化學(xué)習(xí)技能發(fā)現(xiàn)算法,并在模擬實(shí)驗(yàn)中展示了其廣泛適應(yīng)性。隨后研究人員還改進(jìn)了樣本效率,展示了非監(jiān)督技能發(fā)現(xiàn)對(duì)于真實(shí)世界的可行性。
左圖表示隨機(jī)不可預(yù)測(cè)的行為,右圖描述了在可預(yù)測(cè)環(huán)境中的系統(tǒng)性運(yùn)動(dòng)。本研究的目標(biāo)在于學(xué)習(xí)像右圖一樣潛在的有用行為而無(wú)需獎(jiǎng)勵(lì)函數(shù)工程。
DADS概覽
DADS設(shè)計(jì)了一個(gè)內(nèi)部獎(jiǎng)勵(lì)函數(shù)來(lái)鼓勵(lì)主體發(fā)現(xiàn)可預(yù)測(cè)、多樣性的技能。在以下兩種情況下內(nèi)部獎(jiǎng)勵(lì)函數(shù)值很高:
(a).不同技能對(duì)于環(huán)境的改變不同(鼓勵(lì)多樣性);
(b).給定技能在環(huán)境的造成的改變是可預(yù)測(cè)的(可預(yù)測(cè)性)。由于DADS無(wú)法從環(huán)境中獲取任何獎(jiǎng)勵(lì),技能優(yōu)化的多樣性可以使得智能體抓住盡可能多的潛在有效行為。
為了判斷技能是否具有可預(yù)測(cè)性,文章中又訓(xùn)練技能動(dòng)力學(xué)網(wǎng)絡(luò),在給定當(dāng)前狀態(tài)和執(zhí)行技能后來(lái)預(yù)測(cè)環(huán)境狀態(tài)的改變。技能動(dòng)力學(xué)網(wǎng)絡(luò)對(duì)于環(huán)境狀態(tài)的預(yù)測(cè)越好,對(duì)于技能就越是可預(yù)測(cè)的。DADS定義的內(nèi)部獎(jiǎng)勵(lì)可以利用任何傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法來(lái)最大化。
DADS的概覽圖
這套算法使得多個(gè)不同的主體可以通過(guò)與環(huán)境純粹的無(wú)獎(jiǎng)勵(lì)交互來(lái)發(fā)現(xiàn)可預(yù)測(cè)的技能。DADS與先前的算法不同,可以拓展到高維度的連續(xù)控制環(huán)境中,例如人形機(jī)器人、模擬雙足機(jī)器人等。由于DADS可適應(yīng)多種環(huán)境,可用于在方向性的環(huán)境中定位、操控和運(yùn)動(dòng)。下圖展示了一些實(shí)驗(yàn)中的例子。
旋轉(zhuǎn)跳躍、人形仿真的不同步態(tài)、旋轉(zhuǎn)目標(biāo)的不同方法。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書(shū)《柔性:汽車生產(chǎn)未來(lái)的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
11月28日立即下載>> 【白皮書(shū)】精準(zhǔn)洞察 無(wú)線掌控——283FC智能自檢萬(wàn)用表
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動(dòng)駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 10 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!