深度強化學習“落地”高空,全自動環(huán)境監(jiān)測或成現實
在電影《飛屋環(huán)游記》中,男主人公用一大堆氣球將自己的小木屋帶上天空,并通過增減氣球、手動施力來改變氣球的飛行方向,去實現他未曾實現的夢想......
當然,電影世界具有一定的幻想色彩。但是,如今還真有這樣一種巨型氣球,它雖然不能帶著小木屋飛上天空,卻更加智能、用處更大——讓全自動環(huán)境實時監(jiān)測成為可能。
平流層氣球(stratospheric balloon),又稱高空氣球,可以在大氣平流層中自主飛行數月,具有低成本、高效益的特點,這使其成為通信、地球觀測、收集氣象數據和許多其他應用的寵兒。但是,如何實現高空氣球的自主導航,一直是科學研究的一個難題。
近日,來自谷歌研究院(Google Research )和 Alphabet 旗下公司 Loon 的研究人員組成的科研團隊,成功開發(fā)出的一種基于深度強化學習的高性能人工智能控制器,能讓高空氣球一連數周待在原地,并根據環(huán)境因素進行實時決策并實現自主導航。這一研究結果提高了全自動環(huán)境監(jiān)測成為現實的可能性,代表深度強化學習向現實世界應用邁進了非常重要的一步。
該研究成果以“Autonomous navigation of stratospheric balloons using reinforcement learning”為題,于 12 月 3 日在線發(fā)表在頂級期刊 Nature 上。
(來源:Nature)
續(xù)航瓶頸,無法滿足需求
高空氣球中應用最廣泛的當屬“超壓”氣球,氣球內填充氦氣,常被用來在高層大氣開展實驗。這些氣球遇到氣流風時,往往會偏離航道,之后便只能返回地面駐點。而此次研究所采用的深度強化學習方法,可以訓練人工智能系統(tǒng)進行實時決策。對于超壓氣球來說,這些決策包括采取哪些行動來保持其在空中的位置不變。
Loon 超壓氣球是谷歌于 2013 年成立的高空氣球項目的成果之一,旨在將其作為通信中繼平臺,為還未接入互聯(lián)網的偏遠地區(qū)提供一種相對廉價的通信服務。傳統(tǒng)上,Loon 的上下垂直飛行通過泵出固定體積的氣囊來實現,而左右水平運動則由氣球所處位置的風向所決定。因此,為了實現導航目的,飛行控制器必須通過上升和下降的方式,以找到并跟隨對其有利的氣流。
然而,這種簡單的導航方式無法滿足氣球長時間(有時長達幾個月)控制的目標。例如,傳統(tǒng)“控位法”(Station-keeping)需要將氣球固定在某個地面位置的正上方。為了完成這一任務,氣球就必須不斷地通過風場變化采取間接飛行路徑,以保證位置不變。
圖|通過“控位法”保持超壓氣球位置。a) 超壓氣球在風場航行的原理圖。氣球通過不斷移動來保持在離駐點較近的地方。其高度范圍用上下虛線表示;b) 氣球飛行路徑平面示意圖。藍色區(qū)域表示駐點方圓 50 公里范圍。陰影箭頭代表風場。風場不斷變化,要求氣球實時規(guī)劃路線。(來源:Nature)
不僅如此,氣球還需要在晝夜交替中管理自身電力,由于氣球下降時會使用存儲在電池中的太陽能,一旦電力不夠,氣球也就無法再自主控制飛行。另外,一個好的飛行控制器必須能夠權衡收集目標觀測結果的性價比。因此,上述傳統(tǒng)控制技術本身非智能化的性質就限制了其最終表現。
AI 賦能,帶來質的飛躍
為提高超壓氣球的續(xù)航能力,論文作者之一、谷歌研究院科學家 Marc Bellemare 及其合作者訓練了一種人工智能控制器,這種控制器能根據風的歷史記錄、預報、局部風向觀測以及氦氣損失和電池疲勞等其他因素,來實時決定氣球是否需要移動。
首先,研究人員將 StationSeeker 算法用于這一人工智能控制器中。該算法為控制器提供了較好的“洞察力”,StationSeeker 會憑借風向與駐點形成的銳角來跟蹤風向,只要氣球處于駐點范圍內,它就會主動去尋找移動較為緩慢的氣流。
而后,研究人員對該控制器進行了模擬訓練,在模擬試驗中使用強化學習來訓練飛行控制器。強化學習擅長自動產生控制策略,可以處理高維度的異質數據,并在需要長期觀測時優(yōu)化對應的控制策略。
為了獲得最先進的控制器,研究人員結合了深度強化學習領域的最新進展,即強調在學習過程中使用深度神經網絡。該控制器使用的神經網絡分為 7 層、每層具有 600 個校正線性單元,而且試驗證明,使用較小的網絡或非分布算法會使得性能降低。
圖|神經網絡規(guī)模對 TWR50(氣球位于駐點 50 公里以內范圍時節(jié)省的時間)的影響(來源:Nature)
此次模擬試驗包括對超壓氣球控制器在一個固定的位置上進行兩天模擬,在此期間,控制器以 3 分鐘的間隔接收輸入數據和發(fā)出命令。因此,飛行控制器能夠置身于晝夜循環(huán)場景中,這意味著氣球必須從艱難的夜間條件中恢復工作,且最終產生的飛行路徑則會接近真實場景。
最后,作者將該技術應用到分布于全球各地的 Loon 氣球上,包括一項在太平洋上空進行的為期 39 天的受控實驗(共 2884 飛行小時)。分析結果證明,受到 StationSeeker 控制的氣球能夠成功實現自主導航,一旦被吹偏航道,它們能以比傳統(tǒng)控制器控制的氣球更快的速度回到駐點。
其中,控制器最佳表現達到 55.1% TWR50。要知道,1% 的性能提升相當于節(jié)省 14.4 分鐘的返回時間,因此,這一差異相當于每 24 小時內的返回時間平均減少 3.5 小時。
毫無疑問,此次研究成功將人工智能強化學習方法應用到了超壓氣球與環(huán)境的實時交互之中,拓寬了其在現實科學研究中的應用。
正如牛津大學物理系教授 Scott Osprey 所說:“Marc Bellemare 和同事的成果代表了強化學習在現實世界應用的一次巨大進步!

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網行業(yè)年度評選
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 4 拐點已至!匯川領跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 5 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 6 隱退4年后,張一鳴久違現身!互聯(lián)網大佬正集體殺回
- 7 L3自動駕駛延期,逼出車企技術自我淘汰
- 8 谷歌“香蕉”爆火啟示:國產垂類AI的危機還是轉機?
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 10 機器人9月大事件|3家國產機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 生產部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結構工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動化高級工程師 廣東省/深圳市
- 技術專家 廣東省/江門市
- 激光器高級銷售經理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)