Waymo首次公布技術細節(jié),自動駕駛老司機的煉成
雖然Waymo已經在美國當地時間12月5日宣布正式商用,但是外界對Waymo的技術細節(jié)知之甚少。Waymo也很清楚這種信息差異會讓外界對其技術信心不足。這是Waymo需要改變的地方——公布更多技術細節(jié),提高公眾信心。
在美國當地時間12月11日,Waymo在其官方博客上首次對外發(fā)布了部分技術細節(jié)——如何用名為“ChauffeurNet”的深度循環(huán)神經網絡【recurrent neural network (RNN) 】來打造世界上最有經驗的司機。
Waymo要打造的最有經驗的機器人司機像任何一個優(yōu)秀司機一樣,需要通過識別周圍的物體,從而感知和理解周圍的世界,并預測它們下一步的行為,然后在遵守交通規(guī)則的前提下安全駕駛。
近年來,用大量標記數據對深層神經網絡進行監(jiān)督訓練,在很多領域得到了應用,特別是在感知和預測領域,可以迅速提高技術水平,Waymo在這方面也有廣泛的應用。
隨著神經網絡在感知領域的成功,接來下的想法就是,Waymo已經擁有了超過1000萬英里的自動駕駛數據,是否可以使用純粹的監(jiān)督的深度學習方法來訓練出最有經驗的司機呢?
因此,數據專家創(chuàng)建了一個神經網絡,不僅能模擬開車,在具有挑戰(zhàn)性的情形下,還足以驅動一輛真正的車進行測試。但是,簡單的模仿大量的“好司機”的駕駛習慣,并不能創(chuàng)造出一種功能強大、可靠的自動駕駛技術。
相反,Waymo發(fā)現(xiàn)從良好的感知和控制中引導簡化學習任務是有價值的,同時,除了模仿“好司機”的駕駛習慣,還要模仿“壞司機”不良駕駛行為,用額外的不良駕駛行為來訓練出更好的駕駛行為。
1、創(chuàng)建ChauffeurNet
為了通過模仿“好司機”來駕駛,Waymo創(chuàng)建了一個名為“ChauffeurNet”的深度循環(huán)神經網絡(RNN),該網絡通過觀察場景的中層表示作為輸入來發(fā)出駕駛軌跡。中間層的表示不直接使用原始的傳感器數據,從而分解出感知任務,并允許結合真實和模擬數據,以便更容易地進行學習。
如下圖所示,這個輸入表示由一個自頂向下(鳥瞰)的環(huán)境視圖組成,該視圖包含諸如地圖、周圍對象、交通燈狀態(tài)、汽車軌跡信息。該網絡還提供了一條谷歌地圖風格的路線,指引車輛到達目的地。
ChauffeurNet在每次迭代中輸出未來驅動軌跡上的一個點,同時將預測的點寫到內存中,該內存將在下一次迭代中使用。從這個意義上說,RNN不是傳統(tǒng)的,因為內存模型是地精心設計的。ChauffeurNet的軌跡輸出由10個未來點組成,然后被提供給一個低級控制器,該控制器將其轉換為控制指令,如轉向和加速,使其能夠駕駛汽車。
此外,還使用了一個單獨的“PerceptionRNN”頭,它迭代地預測環(huán)境中其他移動對象的未來,并且這個網絡與預測軟件駕駛的RNN共享特性。未來的一種可能性是,在選擇我們自己的駕駛軌跡的同時,預測其他因素的反應,這一過程會發(fā)生更深層次的交叉。
驅動模型的呈現(xiàn)輸入和輸出
從左到右:路標、紅綠燈、限速和路線。從左到右的底部行:當前代理框、動態(tài)框、過去代理位姿和輸出未來代理位姿。
ChauffeurNet有兩個內部部分:FeatureNet和AgentRNN
AgentRNN消耗一個圖像的呈現(xiàn)過去代理姿勢,一組特性計算卷積網絡“FeatureNet”呈現(xiàn)的輸入,與最后一劑盒渲染圖像,一個外顯記憶呈現(xiàn)的預測未來的代理對預測未來代理構成和自頂向下的鳥瞰圖圖。這些預測用于更新AgentRNN的輸入,以便預測下一個時間步驟。
2、模仿“好司機”
Waymo用相當于60天“好司機”駕駛數據的例子對模型進行了訓練,同時加入了訓練技術,以確保網絡不會簡單地繼續(xù)從過去的運動中推斷,而是對環(huán)境做出正確的反應。
正如許多人在我們之前發(fā)現(xiàn)的,包括上世紀80年代的阿爾文項目(ALVINN Project),純粹模仿“好司機”給出的模型,只要情況不太偏離培訓中看到的情況,模型就能平穩(wěn)運行。
該模型學會了對諸如停車標志和交通燈等交通管制作出適當的反應。然而,會有偏差,例如對軌跡引入擾動或將其置于接近碰撞的情況下,會導致其表現(xiàn)不佳,因為即使在使用大量數據進行訓練時,它也可能從未在訓練過程中看到過這些確切的情況。
經過純模仿學習訓練的Agent被困在一輛停著的車輛后面
在沿著彎曲的道路行駛時無法從偏離的軌跡中恢復
上述兩幅動圖備注:藍綠色的路徑表示輸入路徑,黃色的框表示場景中的動態(tài)對象,綠色的框表示Agent,藍色的點表示Agent的過去位置,綠色的點表示預測的未來位置。
3 、“合成壞司機”
從真實世界的駕駛中獲得的“好司機”駕駛行為中,通常只包含在良好情況下駕駛的例子,因為出于明顯的原因,我們不希望我們的“好司機”駕駛陷入近碰撞或爬坡限制,只是為了向神經網絡展示如何在這些情況下恢復。
為了訓練網絡走出困境,模擬或綜合合適的訓練數據是有意義的。一種簡單的方法是加入一些例子,在這些例子中,我們干擾了“好司機”實際的駕駛軌跡。這種擾動使得軌跡的起點和終點保持不變,偏離主要發(fā)生在中間。這教會神經網絡如何從干擾中恢復。
不僅如此,這些擾動還會產生與其他物體或道路限制物發(fā)生合成碰撞的例子,我們通過增加阻止此類碰撞的顯式損失來教會網絡避免這些碰撞。這些損失使我們能夠利用領域知識來指導學習在新的情況下更好地泛化。
通過將當前Agent位置(紅點)從lane center拉出,然后擬合一個新的平滑軌跡,使agent沿lane center回到原來的目標位置,從而對軌跡進行擾動。這項工作演示了一種使用合成數據的方法。除了我們的方法之外,還可以對高度交互或罕見情況進行廣泛的模擬,同時使用強化學習(RL)調整驅動策略。
然而,做RL需要我們精確地模擬環(huán)境中其他道路參與者的真實行為,包括其他車輛、行人和騎自行車的人。由于這個原因,我們在當前的工作中專注于一種純粹的監(jiān)督學習方法,記住我們的模型可以用來創(chuàng)建自然行為的“智能代理”來引導RL。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網行業(yè)年度評選
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網產業(yè)大會
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 4 拐點已至!匯川領跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 5 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網大佬正集體殺回
- 7 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 8 谷歌“香蕉”爆火啟示:國產垂類AI的危機還是轉機?
- 9 機器人9月大事件|3家國產機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 10 美光:AI Capex瘋投不止,終于要拉起存儲超級周期了?
- 生產部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結構工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動化高級工程師 廣東省/深圳市
- 技術專家 廣東省/江門市
- 激光器高級銷售經理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)