訂閱
糾錯(cuò)
加入自媒體

強(qiáng)化學(xué)習(xí)真正上車,對標(biāo) FSD 級別的智駕來了

2025-09-16 15:37
山上
關(guān)注

國內(nèi)首個(gè)強(qiáng)化學(xué)習(xí)大模型上車。

作者王彬

封面別克至境 L7

“誰說合資品牌做不好智駕?”

9 月 15 日,在別克至境 L7 的發(fā)布會(huì)上,上汽通用副總經(jīng)理薛海濤斬釘截鐵地說。他們專門在發(fā)布會(huì)場地中搭建了一個(gè)擁有 7 個(gè)停車位的泊車演示區(qū),在發(fā)布會(huì)中現(xiàn)場實(shí)測至境 L7 的智能泊車輔助功能。在中國汽車發(fā)布會(huì)中的歷史中,這可能也尚屬首次。

別克選擇的實(shí)測項(xiàng)目難點(diǎn)頗高,包括極窄垂直泊入、斷頭路垂直泊入以及斷頭路逆向限位器水平泊入等,涵蓋用戶真實(shí)用車中的多個(gè)困難場景。三項(xiàng)測試項(xiàng)目中,至境 L7 均圓滿完成。

別克至境 L7 發(fā)布會(huì)

“從今天起,關(guān)于‘合資無智駕’的論調(diào),終于可以畫上句號了。”上汽通用副總經(jīng)理薛海濤在發(fā)布會(huì)上說,“我們的表現(xiàn),不僅在合資陣營中穩(wěn)居絕對第一,即便與任何頂尖選手相比也毫不遜色。”

別克至境 L7 的底氣來自于車上首發(fā)搭載的 Momenta R6 強(qiáng)化學(xué)習(xí)飛輪大模型,這是國內(nèi)首個(gè)在端到端基礎(chǔ)上真正實(shí)現(xiàn)量產(chǎn)落地的強(qiáng)化學(xué)習(xí)大模型。

你或許會(huì)感到疑惑,強(qiáng)化學(xué)習(xí)能為智能駕駛帶來什么不同?它和多數(shù)車企們強(qiáng)調(diào)的“端到端”又有什么區(qū)別?

在業(yè)界看來,端到端的上車雖然推動(dòng)了智能輔助駕駛能力的快速提升,但它大多還是基于模仿學(xué)習(xí),改進(jìn)空間有限。許多研究者認(rèn)為,要跨越從輔助駕駛到真正無人駕駛的門檻,僅靠模仿學(xué)習(xí)可能不夠,強(qiáng)化學(xué)習(xí)或許是必不可少的一步。

然而,受限于數(shù)據(jù)、安全和算法等現(xiàn)實(shí)因素,它始終未能在自動(dòng)駕駛中廣泛應(yīng)用。業(yè)內(nèi)運(yùn)用強(qiáng)化學(xué)習(xí)更為知名的案例是特斯拉 FSD。即便馬斯克已經(jīng)不再對外披露 FSD 的技術(shù)路線,但外界普遍認(rèn)為特斯拉正運(yùn)用強(qiáng)化學(xué)習(xí)訓(xùn)練 FSD。

現(xiàn)在,基于強(qiáng)化學(xué)習(xí)的 Momenta R6 飛輪大模型上車,意味著中國公司終于也正式加入了這場強(qiáng)化學(xué)習(xí)競賽。

強(qiáng)化學(xué)習(xí)為什么這么重要?

要理解強(qiáng)化學(xué)習(xí)之于自動(dòng)駕駛未來的重要性,我們需要先厘清強(qiáng)化學(xué)習(xí)的概念。

從技術(shù)角度來說,強(qiáng)化學(xué)習(xí)的核心就是試錯(cuò),讓智能體通過與環(huán)境交互,不斷嘗試動(dòng)作、獲得獎(jiǎng)懲信號來改進(jìn)策略。你可以回想小時(shí)候?qū)W習(xí)騎自行車的經(jīng)歷,騎車、摔倒、再騎車……最終你學(xué)會(huì)了如何掌握平衡。這其實(shí)就是一個(gè)最簡單的強(qiáng)化學(xué)習(xí)過程。

強(qiáng)化學(xué)習(xí)主題頁圖表

強(qiáng)化學(xué)習(xí)簡要決策示意圖

強(qiáng)化學(xué)習(xí)雖然早在上世紀(jì)八十年代就已成型,但它第一次真正走入大眾視野,還是 2016 年 AlphaGo 戰(zhàn)勝人類棋手李世石的那一刻。 在 AlphaGo 的訓(xùn)練中,DeepMind 就運(yùn)用了強(qiáng)化學(xué)習(xí)技術(shù)。

后來 AlphaGo 的升級版本 AlphaGo Zero 甚至完全拋棄了人類歷史棋譜,僅使用強(qiáng)化學(xué)習(xí)從零訓(xùn)練三天、經(jīng)過大概 490 萬盤的自我對弈之后,就能以 100:0 的全勝戰(zhàn)績擊敗此前最強(qiáng)的 AlphaGo 版本。

換句話說,強(qiáng)化學(xué)習(xí)過去的經(jīng)驗(yàn)往往證明了這樣一個(gè)道理,如果目標(biāo)是讓 AI 的能力顯著超越人類,那么僅僅依賴對人類經(jīng)驗(yàn)的模仿遠(yuǎn)遠(yuǎn)不夠,必須通過強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)自我博弈和持續(xù)成長。

自動(dòng)駕駛領(lǐng)域同樣如此。對于自動(dòng)駕駛這樣一門關(guān)乎現(xiàn)實(shí)行車安全的學(xué)科來說,它對于機(jī)器駕駛安全性的要求遠(yuǎn)超人駕。Momenta 創(chuàng)始人及 CEO 曹旭東此前提出過一個(gè)概念,要實(shí)現(xiàn)可規(guī);臒o人駕駛,自動(dòng)駕駛至少要做到 10 倍領(lǐng)先于人類駕駛的安全水平,才有可能規(guī)模化落地應(yīng)用。而要實(shí)現(xiàn) 10 萬臺 Robotaxi 的大規(guī)模商用,可能需要 100-1000 倍人類駕駛的安全水平才能達(dá)到足夠的安全。

人類對于自動(dòng)駕駛安全性的容忍程度遠(yuǎn)低于人駕。人類駕駛員可能 1000 臺車中一年就會(huì)有一次重大安全事故,但只要有一起重大安全或死亡事故,往往就能摧毀一家 Robotaxi 公司。只有自動(dòng)駕駛達(dá)到遠(yuǎn)超于人駕的水平,才有可能實(shí)現(xiàn)落地。

2023 年,谷歌旗下的 Robotaxi 公司 Waymo 對外發(fā)布了一篇技術(shù)論文,稱“模仿遠(yuǎn)遠(yuǎn)不夠”(Imitation Is Not Enough)。Waymo 表示,僅基于模仿學(xué)習(xí)的策略往往無法充分解決安全和可靠性問題。他們嘗試將模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合,僅僅只通過 10 萬英里的城市駕駛數(shù)據(jù)的訓(xùn)練,就可極大提高最難場景下的安全可靠性,失敗率降低超過 38%。

Waymo 官網(wǎng)發(fā)布的技術(shù)論文

簡而言之,自動(dòng)駕駛?cè)绻胍嬲龑?shí)現(xiàn)滿足落地 Robotaxi 場景的安全要求,必須要通過強(qiáng)化學(xué)習(xí)才能實(shí)現(xiàn)。

行業(yè)人士也對外表達(dá)過不少類似觀點(diǎn)。小馬智行創(chuàng)始人樓天城說,模仿學(xué)習(xí)的上限甚至遠(yuǎn)達(dá)不到人類。模仿學(xué)習(xí)致命問題在于它不是閉環(huán)訓(xùn)練,人類駕駛員用了許多車沒有掌握的信息才做出駕駛決策,如果車沒有掌握這些信息,越模仿差得越遠(yuǎn)。

Momenta 創(chuàng)始人曹旭東說,過去一段式端到端模型基于模仿學(xué)習(xí),容易出現(xiàn)的情況就是“知其然不知其所以然”,在一些安全的長尾場景就沒有很好的反應(yīng)或者泛化能力。

特斯拉 FSD 之所以能展現(xiàn)出極強(qiáng)的適應(yīng)能力,即便未在國內(nèi)實(shí)地訓(xùn)練也能達(dá)成不錯(cuò)效果,部分原因或許也與強(qiáng)化學(xué)習(xí)的應(yīng)用有關(guān)。

即便馬斯克不再對外透露 FSD 的技術(shù)路線,但我們?nèi)匀豢梢詮奶厮估恼衅竼⑹轮幸桓Q端倪。特斯拉最新的招聘啟事中明確指出,應(yīng)聘者需要利用生成建模、模仿學(xué)習(xí)及強(qiáng)化學(xué)習(xí)等技術(shù)來提升駕駛模型的規(guī)劃和推理能力。

特斯拉官網(wǎng)招聘頁面

同時(shí),特斯拉也在機(jī)器人項(xiàng)目中 Optimus 的訓(xùn)練中應(yīng)用強(qiáng)化學(xué)習(xí)。今年 5 月,Optimus 公布兩段機(jī)器人舞蹈視頻,展現(xiàn)出極強(qiáng)的平衡協(xié)調(diào)性。特斯拉 Optimus 副總裁米蘭·科瓦奇(Milan Kovac)透露,Optimus 的舞蹈技能“完全通過模擬環(huán)境中的強(qiáng)化學(xué)習(xí)訓(xùn)練”得來,無需人類演示或物理試錯(cuò)。

米蘭·科瓦奇轉(zhuǎn)發(fā)馬斯克的帖文

某種程度上,強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛與機(jī)器人中的應(yīng)用是相通的。此前曹旭東接受媒體采訪時(shí)曾表示,自動(dòng)駕駛和通用機(jī)器人的能力交集或大于 80%。

強(qiáng)化學(xué)習(xí)上車,智駕更安全

強(qiáng)化學(xué)習(xí)這么重要,為什么過去一直沒有在自動(dòng)駕駛領(lǐng)域大規(guī)模普及?

有許多現(xiàn)實(shí)問題的制約。比如最簡單的安全問題,強(qiáng)化學(xué)習(xí)需要通過不斷試錯(cuò)來優(yōu)化策略,而在真實(shí)道路上試錯(cuò)成本極高,任何錯(cuò)誤都有可能引發(fā)交通事故。數(shù)據(jù)問題也很突出,行業(yè)早期大量高質(zhì)量、覆蓋長尾場景的數(shù)據(jù)難以獲取。算力和模型的限制,也讓復(fù)雜策略難以在可接受時(shí)間內(nèi)完成,更不用說獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)問題。種種難題的制約,導(dǎo)致強(qiáng)化學(xué)習(xí)長期停留在研究階段,難以直接落地。

尤其是對于當(dāng)前密集推動(dòng)智能駕駛上車的車企們來說。在 L2 階段,智能駕駛的能用比好用更重要,落地是第一步,因而此前行業(yè)先后從規(guī)則算法到端到端,目的之一就是先讓汽車用上智能輔助駕駛。

而此前行業(yè)中一早就瞄準(zhǔn)完全無人駕駛的 Robotaxi 創(chuàng)業(yè)公司們,則不得不面臨難以規(guī);涞氐睦Ь场J聦(shí)上早期大多數(shù) Robotaxi 公司們只是小范圍內(nèi)運(yùn)營,依賴局部區(qū)域的高精地圖以及車身上的大面積傳感器,但往往也導(dǎo)致無法收集到足夠多的長尾數(shù)據(jù)。

Momenta 是其中的另類。這家公司雖然同樣瞄準(zhǔn)最終的完全無人駕駛,但他們選擇“兩條腿”走路,一條腿是推動(dòng) L2 級別智能輔助駕駛的量產(chǎn),來獲取更多高質(zhì)量的長尾數(shù)據(jù);另一條腿是發(fā)力更前沿的 Robotaxi 自動(dòng)駕駛,探索技術(shù)突破的同時(shí)與 L2 落地形成反哺。

Momenta 數(shù)據(jù)飛輪

曹旭東認(rèn)為,如果要實(shí)現(xiàn)可規(guī); L4,起碼要積累 1000 億公里的行車數(shù)據(jù),這相當(dāng)于 1000 萬臺乘用車跑一年。而僅靠自有車隊(duì)難以實(shí)現(xiàn)。他們將這一戰(zhàn)略歸納為“一個(gè)飛輪兩條腿”,“一個(gè)飛輪”的核心是數(shù)據(jù)驅(qū)動(dòng),兩條腿則是 L2 量產(chǎn)與 Robotaxi 共同發(fā)力,形成一個(gè)高效的數(shù)據(jù)協(xié)同。

數(shù)據(jù)驅(qū)動(dòng)的弊端之一是 Momenta 早期不夠性感,但時(shí)間會(huì)證明一切。從 2022 年實(shí)現(xiàn)首款量產(chǎn)車型落地開始,Momenta 的飛輪越轉(zhuǎn)越快,定點(diǎn)量產(chǎn)車型不斷增多,技術(shù)落地也越來越快。

Momenta 合作伙伴

尤其最近 Momenta R6 飛輪大模型的推出,這是國內(nèi)首個(gè)在端到端基礎(chǔ)上真正實(shí)現(xiàn)量產(chǎn)落地的強(qiáng)化學(xué)習(xí)大模型。在此之前,行業(yè)中雖然也有不少公司意識到了強(qiáng)化學(xué)習(xí)的重要性,但更多使用模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的路線。先通過模仿學(xué)習(xí)來訓(xùn)練出來一個(gè)端到端基礎(chǔ)模型,再用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)長尾復(fù)雜場景的攻堅(jiān)。

Momenta 很早就開始探索強(qiáng)化學(xué)習(xí)的應(yīng)用。去年他們就已經(jīng)成功驗(yàn)證了強(qiáng)化學(xué)習(xí)的算法、原型,今年開始推動(dòng) R6 飛輪大模型的真正量產(chǎn)落地。

Momenta R6 飛輪大模型

基于 30 億+公里實(shí)戰(zhàn)數(shù)據(jù)訓(xùn)練的 Momenta R6 飛輪大模型可以帶來諸多智能駕駛體驗(yàn)的提升,尤其在安全、擬人、高效等方面。比如在面對加塞、鬼探頭、盲區(qū)遮擋的復(fù)雜路況能夠精準(zhǔn)預(yù)判,而在強(qiáng)化學(xué)習(xí)加持下,它可以比模仿學(xué)習(xí)表現(xiàn)得更像人駕,在復(fù)雜場景下更自然流暢。

率先搭載 Momenta R6 飛輪大模型的至境 L7,可以實(shí)現(xiàn)“無斷點(diǎn)”的城市 NOA,并在業(yè)內(nèi)首批發(fā)布“多步變一步,不停車一鍵泊入”等在內(nèi)的全場景輔助駕駛功能。

別克至境 L7 發(fā)布會(huì)

更重要的是,強(qiáng)化學(xué)習(xí)的介入讓至境 L7 的智能輔助駕駛安全性大大提升。至境 L7 的發(fā)布會(huì)前,別克專門復(fù)現(xiàn)了此前懂車帝智駕橫評測試中最困難的兩道考題,分別是高速事故場景模擬“消失的前車”、城市事故場景模擬“盲區(qū)藏輛左轉(zhuǎn)車”。兩項(xiàng)挑戰(zhàn)中,至境 L7 均挑戰(zhàn)通過,主動(dòng)制動(dòng)避險(xiǎn)。

“相比于模仿型大模型,它除了使用人類的好數(shù)據(jù)之外,還會(huì)使用一些極限場景的挑戰(zhàn)數(shù)據(jù)或者壞數(shù)據(jù)。”曹旭東介紹,這樣模型學(xué)習(xí)的就不是人的駕駛,因?yàn)檫@些極限場景下人的處理本身都不太好,但通過強(qiáng)化學(xué)習(xí)可以探索出更安全、更安心和更絲滑的駕駛策略。

與特斯拉 FSD 站在同一維度競爭

數(shù)據(jù)飛輪是 Momenta 可以率先實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)落地的重要原因之一。強(qiáng)化學(xué)習(xí)的基礎(chǔ)之一就是積累起足夠多的覆蓋長尾、極限場景的高質(zhì)量數(shù)據(jù),此后再通過仿真場景訓(xùn)練和實(shí)車驗(yàn)證測試。而 Momenta 正是目前國內(nèi)城市 NOA 第三方智駕市場市占率最高的公司之一。

Momenta 是如此強(qiáng)調(diào)數(shù)據(jù)的重要性,以至于不少行業(yè)人士戲稱他們是一家數(shù)據(jù)公司!吨袊髽I(yè)家》此前在報(bào)道中引述一位投資人的說法,“他們在搭建數(shù)據(jù)飛輪上非常專注,甚至有點(diǎn)像一個(gè)數(shù)據(jù)公司。”

行業(yè)中另一個(gè)專注于積累數(shù)據(jù)積累與強(qiáng)化學(xué)習(xí)訓(xùn)練的公司是特斯拉。馬斯克在不同場合下都多次表達(dá)過數(shù)據(jù)的重要性,認(rèn)為他們最大的優(yōu)勢之一就是龐大的量產(chǎn)車輛和每天產(chǎn)生的行駛數(shù)據(jù)。

事實(shí)上,特斯拉 FSD 本身就是一個(gè)閉環(huán)的高效數(shù)據(jù)模型。每一輛行駛在路面上的特斯拉汽車都在源源不斷地為特斯拉產(chǎn)生數(shù)據(jù),這些數(shù)據(jù)又不斷反饋到特斯拉的云端超算中心。

為了加速數(shù)據(jù)收集和驗(yàn)證,特斯拉甚至在車端部署了一個(gè)名為影子模式(Shadow Mode)的機(jī)制,當(dāng)車輛在真實(shí)路面上行駛時(shí),系統(tǒng)會(huì)進(jìn)行模擬決策來與人駕進(jìn)行對比和觀察,評估和改進(jìn)算法。

特斯拉影子模式

數(shù)據(jù)驅(qū)動(dòng)的路徑讓 FSD 快速成長。自 2023 年 FSD V12 版本推出以來,特斯拉在自動(dòng)駕駛道路上一路狂飆。今年 6 月,特斯拉 Robotaxi 服務(wù)首次在美國奧斯汀落地運(yùn)營,初期僅在小范圍內(nèi)運(yùn)營。僅僅 2 個(gè)月后,特斯拉 Robotaxi 的覆蓋范圍就增加至 173 平方英里,車隊(duì)運(yùn)營規(guī)模擴(kuò)大 50%。

馬斯克計(jì)劃,Robotaxi 車隊(duì)到今年底要覆蓋美國一半人口,“服務(wù)區(qū)域和車隊(duì)數(shù)量都將呈現(xiàn)指數(shù)級增長。”在他看來,隨著 Robotaxi 進(jìn)一步擴(kuò)張,每輛車每天積累的行駛數(shù)據(jù)量將是普通車輛的十倍,這些數(shù)據(jù)或?qū)⒎床?FSD 的訓(xùn)練,幫助現(xiàn)有車型持續(xù)提升自動(dòng)駕駛性能。

特斯拉的這套邏輯和 Momenta 的“一個(gè)飛輪兩條腿”幾乎沒有什么不同。同樣都是通過大面積的量產(chǎn)車輛積累海量數(shù)據(jù),同樣也都是通過 Robotaxi 來反哺智能駕駛訓(xùn)練。曹旭東此前對外解釋過 Momenta 的兩條腿戰(zhàn)略,“先把全無人系統(tǒng)先放到測試車上跑,相對成熟了,再往量產(chǎn)推;然后量產(chǎn)的數(shù)據(jù)回來了,又能用于發(fā)展下一代全無人產(chǎn)品,兩條腿協(xié)同。”

今年 5 月,Momenta 與享道出行達(dá)成戰(zhàn)略合作,雙方將共同打造基于前裝量產(chǎn)的 Robotaxi 車隊(duì),并率先于上海啟動(dòng)試運(yùn)營。同一時(shí)期,Momenta 還與 Uber 達(dá)成戰(zhàn)略合作,首批合作商業(yè)化落地將于 2026 年初在歐洲啟動(dòng)。9 月 8 日,雙方共同宣布德國慕尼黑將作為聯(lián)合 Robotaxi 項(xiàng)目的首發(fā)城市。

Momenta CEO 曹旭東與 Uber CFO Prashanth Mahendra-Rajah

和市面上多數(shù)基于量產(chǎn)車型改造的 Robotaxi 服務(wù)不同,Momenta 落地運(yùn)營的 Robotaxi 車隊(duì)完全基于量產(chǎn)車型打造。比如與享道出行的合作中,Robotaxi 車隊(duì)就將復(fù)用現(xiàn)有上汽智己 LS6 的硬件,無需額外后裝改造。這和特斯拉使用量產(chǎn) Model Y 落地 Robotaxi 類似,馬斯克同樣執(zhí)著于使用量產(chǎn)車型實(shí)現(xiàn) Robotaxi 服務(wù)。

Momenta 在慕尼黑開啟智能輔助駕駛

在曹旭東看來,強(qiáng)化學(xué)習(xí)大模型的上車將會(huì)推動(dòng)智能駕駛迭代速度越來越快。今年以來,已經(jīng)有不少行業(yè)人士開始強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)的重要性,無論是 Robotaxi 創(chuàng)業(yè)公司還是新能源車企。即便各家的技術(shù)路線有所不同,有的強(qiáng)調(diào)世界模型,有的強(qiáng)調(diào) VLA,都無一例外都提出強(qiáng)化學(xué)習(xí)的重要性。

今年初,DeepSeek-R1 通過純強(qiáng)化學(xué)習(xí)的訓(xùn)練機(jī)制也讓不少自動(dòng)駕駛行業(yè)人士受到啟發(fā)。佐思汽研發(fā)布的調(diào)研報(bào)告指出,強(qiáng)化學(xué)習(xí)領(lǐng)域的技術(shù)創(chuàng)新成果,同樣能夠遷移應(yīng)用至端到端智能駕駛領(lǐng)域;趶(qiáng)化學(xué)習(xí)的大模型技術(shù)路線,為端到端智能駕駛算法的研發(fā)提供了全新思路,有望突破傳統(tǒng)模仿學(xué)習(xí)的限制。

現(xiàn)在,隨著 Momenta R6 飛輪大模型的上車,強(qiáng)化學(xué)習(xí)開始真正在量產(chǎn)車型中應(yīng)用。但它更重要的意義或許在于,智能駕駛系統(tǒng)將不再只是單純地模仿人類,而是可以從真實(shí)的駕駛過程中實(shí)現(xiàn)自我迭代、自我成長,一個(gè)智駕有望超越人駕的安全未來正在到來。

更早之前,曹旭東總結(jié)過智駕領(lǐng)域的摩爾定律,軟件體驗(yàn)每兩年提升 10 倍;硬件 BOM 成本(原材料成本)每兩年降一半。他們的目標(biāo)是超越智駕的摩爾定律。

©山上版權(quán)所有,未經(jīng)授權(quán),禁止轉(zhuǎn)載

       原文標(biāo)題 : 強(qiáng)化學(xué)習(xí)真正上車,對標(biāo) FSD 級別的智駕來了

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號