人工智能AI在機器人運動控制領(lǐng)域應(yīng)用盤點
1)強化學(xué)習(xí)
強化學(xué)習(xí)框架中,有一個包含神經(jīng)網(wǎng)絡(luò)的Agent負(fù)責(zé)決策。Agent以當(dāng)前機器人傳感器所采集到的環(huán)境為輸入,輸出控制機器人的行動命令action,機器人行動后,再觀察新的環(huán)境狀態(tài)和行動帶來的結(jié)果Reward,決定下一步新的行動action。Reward根據(jù)控制目標(biāo)進行設(shè)置,并有正反向之分。例如,如果以自動駕駛為目標(biāo),正向的Reward的就是到達目的地,反向就是不能達到目的地,更不好的Reward就是出車禍。然后重復(fù)這個過程,目標(biāo)是最大化Reward。
強化學(xué)習(xí)的控制過程,本來就是個正向反饋的控制過程,是AI用于機器人控制的基礎(chǔ)。以此為基礎(chǔ),強化學(xué)習(xí)在機器人控制方面出現(xiàn)了一些研究成果。
2)環(huán)境中尋找目標(biāo)
16年,李飛飛組放出了一篇論文,基于深度強化學(xué)習(xí),在以目標(biāo)圖像為輸入的情況下,不建圖去找東西。大致思路是:根據(jù)機器看到的圖,決定怎么走,然后再看圖,再決定新走的一步,直到找到東西。論文將目標(biāo)圖像作為輸入,訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)具有通用性。
這種方式找東西更接近人的思維。訓(xùn)練出的控制器并沒有記住物體的位置,更不知道房屋的結(jié)構(gòu)。但它記住了在每一個位置,通向各個物體應(yīng)該怎么走。
3)機器人抓取
傳統(tǒng)的機器人學(xué)研究認(rèn)為,需要非常清楚要抓取的物體的三維幾何形狀,分析受力位置和力的大小,再反向計算機器手如何一步步移動到這些位置。但這種方式抓取不規(guī)則形狀和柔性物體會很困難。例如毛巾,可能需要看成一系列剛體的鏈接,再進行動力學(xué)建模分析,但是計算量比較大。而小黃鴨那樣的橡膠,外部并不能看出彈性程度,難以計算出需要施加的正確的力。
Pieter Abbeel、DeepMind和OpenAI關(guān)于機器人控制的研究,都以此深度強化學(xué)習(xí)為基礎(chǔ)。基于強化學(xué)習(xí)進行機器人抓取,以機器視角看到的圖像為輸入,以機器最終抓到物體為目標(biāo),不斷對機器進行訓(xùn)練,從而在不建模和不做受力分析的情況下,實現(xiàn)對物體的抓取。Pieter Abbeel已經(jīng)展示過機器人疊毛巾,開瓶蓋,裝玩具等復(fù)雜的動作。
不過基于強化學(xué)習(xí)也仍有很多問題,如效率低、推理過程長、任務(wù)難以描述、不能終身學(xué)習(xí)、不能最大限度從真實世界獲取信息等。其中一些通過meta學(xué)習(xí),one-shot學(xué)習(xí),遷移學(xué)習(xí),VR示教等方法的引入得到了改善,有些則還暫時難以解決。
4.Dexterity Network
鑒于深度強化學(xué)習(xí)的各種問題,Pieter Abbeel在UCBerkeley的同事Ken Goldberg,則采用了叫做Dexterity Network(Dex-Net)的研究思路。首先通過傳統(tǒng)機器人學(xué)中分析受力和建模的思路,建立一個包含大量數(shù)據(jù)的數(shù)據(jù)集,這個數(shù)據(jù)集里的每一項數(shù)據(jù)包含一個物體的模型和這個物體在不同姿態(tài)下可以被穩(wěn)定抓起來的施力方式,這些施力方式是通過物體模型計算出來的。有了數(shù)據(jù)之后,用這些數(shù)據(jù)訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)。然后給出一個新物體,通過神經(jīng)網(wǎng)絡(luò)判斷這個物體和數(shù)據(jù)集里哪個物體最相似,然后根據(jù)最相似的物體的數(shù)據(jù)集里包含的施力方式計算出這個新物體的最穩(wěn)定施力方式。
Ken Goldberg的方案的一個重要弊端,是計算量過于龐大。整個算法占用了Google云服務(wù)器上的1500臺虛擬機的計算量。此方法也讓“云機器人”這個概念受到了關(guān)注。
目前Pieter Abbeel和Ken Goldberg的兩種方法還處于學(xué)術(shù)爭議階段,新的研究成果還在不斷出現(xiàn),也還有很多問題沒有解決,尤其是穩(wěn)定性和魯棒性是各方爭議的焦點。不同于語音識別音箱出了錯,無非是鬧個笑話,機器人系統(tǒng)對穩(wěn)定性和可靠性的要求非常高,系統(tǒng)一旦出錯,輕則毀物,重則造成人類的生命危險。Pieter Abbeel也承認(rèn)目前還沒考慮魯棒性和穩(wěn)定性問題,似乎整體還沒達到商用產(chǎn)品級。
總結(jié)
總體而言,以強化學(xué)習(xí)為代表,AI在機器人控制領(lǐng)域近兩年取得了一些進展,尤其是在過去研究方法難以突破的環(huán)境交互問題方面取得了進展。但基于神經(jīng)網(wǎng)絡(luò)的控制系統(tǒng),在魯棒性等方面短期似乎難以得到解決,因此離實際應(yīng)用還有很遠的距離。在多種研究方法的共同努力下,我們也期待機器人控制問題能夠早日有所突破。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 5 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機還是轉(zhuǎn)機?
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 10 機器人9月大事件|3家國產(chǎn)機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動化高級工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)