123,123,123

強化學習真正上車，對標 FSD 級別的智駕來了

2025-09-16 15:37

國內首個強化學習大模型上車。

作者｜王彬

封面｜別克至境 L7

“誰說合資品牌做不好智駕？”

9 月 15 日，在別克至境 L7 的發(fā)布會上，上汽通用副總經理薛海濤斬釘截鐵地說。他們專門在發(fā)布會場地中搭建了一個擁有 7 個停車位的泊車演示區(qū)，在發(fā)布會中現場實測至境 L7 的智能泊車輔助功能。在中國汽車發(fā)布會中的歷史中，這可能也尚屬首次。

別克選擇的實測項目難點頗高，包括極窄垂直泊入、斷頭路垂直泊入以及斷頭路逆向限位器水平泊入等，涵蓋用戶真實用車中的多個困難場景。三項測試項目中，至境 L7 均圓滿完成。

別克至境 L7 發(fā)布會

“從今天起，關于‘合資無智駕’的論調，終于可以畫上句號了。”上汽通用副總經理薛海濤在發(fā)布會上說，“我們的表現，不僅在合資陣營中穩(wěn)居絕對第一，即便與任何頂尖選手相比也毫不遜色。”

別克至境 L7 的底氣來自于車上首發(fā)搭載的 Momenta R6 強化學習飛輪大模型，這是國內首個在端到端基礎上真正實現量產落地的強化學習大模型。

你或許會感到疑惑，強化學習能為智能駕駛帶來什么不同？它和多數車企們強調的“端到端”又有什么區(qū)別？

在業(yè)界看來，端到端的上車雖然推動了智能輔助駕駛能力的快速提升，但它大多還是基于模仿學習，改進空間有限。許多研究者認為，要跨越從輔助駕駛到真正無人駕駛的門檻，僅靠模仿學習可能不夠，強化學習或許是必不可少的一步。

然而，受限于數據、安全和算法等現實因素，它始終未能在自動駕駛中廣泛應用。業(yè)內運用強化學習更為知名的案例是特斯拉 FSD。即便馬斯克已經不再對外披露 FSD 的技術路線，但外界普遍認為特斯拉正運用強化學習訓練 FSD。

現在，基于強化學習的 Momenta R6 飛輪大模型上車，意味著中國公司終于也正式加入了這場強化學習競賽。

強化學習為什么這么重要？

要理解強化學習之于自動駕駛未來的重要性，我們需要先厘清強化學習的概念。

從技術角度來說，強化學習的核心就是試錯，讓智能體通過與環(huán)境交互，不斷嘗試動作、獲得獎懲信號來改進策略。你可以回想小時候學習騎自行車的經歷，騎車、摔倒、再騎車……最終你學會了如何掌握平衡。這其實就是一個最簡單的強化學習過程。

強化學習主題頁圖表

強化學習簡要決策示意圖

強化學習雖然早在上世紀八十年代就已成型，但它第一次真正走入大眾視野，還是 2016 年 AlphaGo 戰(zhàn)勝人類棋手李世石的那一刻。在 AlphaGo 的訓練中，DeepMind 就運用了強化學習技術。

后來 AlphaGo 的升級版本 AlphaGo Zero 甚至完全拋棄了人類歷史棋譜，僅使用強化學習從零訓練三天、經過大概 490 萬盤的自我對弈之后，就能以 100:0 的全勝戰(zhàn)績擊敗此前最強的 AlphaGo 版本。

換句話說，強化學習過去的經驗往往證明了這樣一個道理，如果目標是讓 AI 的能力顯著超越人類，那么僅僅依賴對人類經驗的模仿遠遠不夠，必須通過強化學習來實現自我博弈和持續(xù)成長。

自動駕駛領域同樣如此。對于自動駕駛這樣一門關乎現實行車安全的學科來說，它對于機器駕駛安全性的要求遠超人駕。Momenta 創(chuàng)始人及 CEO 曹旭東此前提出過一個概念，要實現可規(guī)�；臒o人駕駛，自動駕駛至少要做到 10 倍領先于人類駕駛的安全水平，才有可能規(guī)�；涞貞�。而要實現 10 萬臺 Robotaxi 的大規(guī)模商用，可能需要 100-1000 倍人類駕駛的安全水平才能達到足夠的安全。

人類對于自動駕駛安全性的容忍程度遠低于人駕。人類駕駛員可能 1000 臺車中一年就會有一次重大安全事故，但只要有一起重大安全或死亡事故，往往就能摧毀一家 Robotaxi 公司。只有自動駕駛達到遠超于人駕的水平，才有可能實現落地。

2023 年，谷歌旗下的 Robotaxi 公司 Waymo 對外發(fā)布了一篇技術論文，稱“模仿遠遠不夠”（Imitation Is Not Enough）。Waymo 表示，僅基于模仿學習的策略往往無法充分解決安全和可靠性問題。他們嘗試將模仿學習與強化學習結合，僅僅只通過 10 萬英里的城市駕駛數據的訓練，就可極大提高最難場景下的安全可靠性，失敗率降低超過 38%。

Waymo 官網發(fā)布的技術論文

簡而言之，自動駕駛如果想要真正實現滿足落地 Robotaxi 場景的安全要求，必須要通過強化學習才能實現。

行業(yè)人士也對外表達過不少類似觀點。小馬智行創(chuàng)始人樓天城說，模仿學習的上限甚至遠達不到人類。模仿學習致命問題在于它不是閉環(huán)訓練，人類駕駛員用了許多車沒有掌握的信息才做出駕駛決策，如果車沒有掌握這些信息，越模仿差得越遠。

Momenta 創(chuàng)始人曹旭東說，過去一段式端到端模型基于模仿學習，容易出現的情況就是“知其然不知其所以然”，在一些安全的長尾場景就沒有很好的反應或者泛化能力。

特斯拉 FSD 之所以能展現出極強的適應能力，即便未在國內實地訓練也能達成不錯效果，部分原因或許也與強化學習的應用有關。

即便馬斯克不再對外透露 FSD 的技術路線，但我們仍然可以從特斯拉的招聘啟事中一窺端倪。特斯拉最新的招聘啟事中明確指出，應聘者需要利用生成建模、模仿學習及強化學習等技術來提升駕駛模型的規(guī)劃和推理能力。

特斯拉官網招聘頁面

同時，特斯拉也在機器人項目中 Optimus 的訓練中應用強化學習。今年 5 月，Optimus 公布兩段機器人舞蹈視頻，展現出極強的平衡協(xié)調性。特斯拉 Optimus 副總裁米蘭·科瓦奇（Milan Kovac）透露，Optimus 的舞蹈技能“完全通過模擬環(huán)境中的強化學習訓練”得來，無需人類演示或物理試錯。

米蘭·科瓦奇轉發(fā)馬斯克的帖文

某種程度上，強化學習在自動駕駛與機器人中的應用是相通的。此前曹旭東接受媒體采訪時曾表示，自動駕駛和通用機器人的能力交集或大于 80%。

強化學習上車，智駕更安全

強化學習這么重要，為什么過去一直沒有在自動駕駛領域大規(guī)模普及？

有許多現實問題的制約。比如最簡單的安全問題，強化學習需要通過不斷試錯來優(yōu)化策略，而在真實道路上試錯成本極高，任何錯誤都有可能引發(fā)交通事故。數據問題也很突出，行業(yè)早期大量高質量、覆蓋長尾場景的數據難以獲取。算力和模型的限制，也讓復雜策略難以在可接受時間內完成，更不用說獎勵函數的設計問題。種種難題的制約，導致強化學習長期停留在研究階段，難以直接落地。

尤其是對于當前密集推動智能駕駛上車的車企們來說。在 L2 階段，智能駕駛的能用比好用更重要，落地是第一步，因而此前行業(yè)先后從規(guī)則算法到端到端，目的之一就是先讓汽車用上智能輔助駕駛。

而此前行業(yè)中一早就瞄準完全無人駕駛的 Robotaxi 創(chuàng)業(yè)公司們，則不得不面臨難以規(guī)�；涞氐睦Ь场Ｊ聦嵣显缙诖蠖鄶� Robotaxi 公司們只是小范圍內運營，依賴局部區(qū)域的高精地圖以及車身上的大面積傳感器，但往往也導致無法收集到足夠多的長尾數據。

Momenta 是其中的另類。這家公司雖然同樣瞄準最終的完全無人駕駛，但他們選擇“兩條腿”走路，一條腿是推動 L2 級別智能輔助駕駛的量產，來獲取更多高質量的長尾數據；另一條腿是發(fā)力更前沿的 Robotaxi 自動駕駛，探索技術突破的同時與 L2 落地形成反哺。

Momenta 數據飛輪

曹旭東認為，如果要實現可規(guī)�；� L4，起碼要積累 1000 億公里的行車數據，這相當于 1000 萬臺乘用車跑一年。而僅靠自有車隊難以實現。他們將這一戰(zhàn)略歸納為“一個飛輪兩條腿”，“一個飛輪”的核心是數據驅動，兩條腿則是 L2 量產與 Robotaxi 共同發(fā)力，形成一個高效的數據協(xié)同。

數據驅動的弊端之一是 Momenta 早期不夠性感，但時間會證明一切。從 2022 年實現首款量產車型落地開始，Momenta 的飛輪越轉越快，定點量產車型不斷增多，技術落地也越來越快。

Momenta 合作伙伴

尤其最近 Momenta R6 飛輪大模型的推出，這是國內首個在端到端基礎上真正實現量產落地的強化學習大模型。在此之前，行業(yè)中雖然也有不少公司意識到了強化學習的重要性，但更多使用模仿學習與強化學習結合的路線。先通過模仿學習來訓練出來一個端到端基礎模型，再用強化學習實現長尾復雜場景的攻堅。

Momenta 很早就開始探索強化學習的應用。去年他們就已經成功驗證了強化學習的算法、原型，今年開始推動 R6 飛輪大模型的真正量產落地。

Momenta R6 飛輪大模型

基于 30 億+公里實戰(zhàn)數據訓練的 Momenta R6 飛輪大模型可以帶來諸多智能駕駛體驗的提升，尤其在安全、擬人、高效等方面。比如在面對加塞、鬼探頭、盲區(qū)遮擋的復雜路況能夠精準預判，而在強化學習加持下，它可以比模仿學習表現得更像人駕，在復雜場景下更自然流暢。

率先搭載 Momenta R6 飛輪大模型的至境 L7，可以實現“無斷點”的城市 NOA，并在業(yè)內首批發(fā)布“多步變一步，不停車一鍵泊入”等在內的全場景輔助駕駛功能。

別克至境 L7 發(fā)布會

更重要的是，強化學習的介入讓至境 L7 的智能輔助駕駛安全性大大提升。至境 L7 的發(fā)布會前，別克專門復現了此前懂車帝智駕橫評測試中最困難的兩道考題，分別是高速事故場景模擬“消失的前車”、城市事故場景模擬“盲區(qū)藏輛左轉車”。兩項挑戰(zhàn)中，至境 L7 均挑戰(zhàn)通過，主動制動避險。

“相比于模仿型大模型，它除了使用人類的好數據之外，還會使用一些極限場景的挑戰(zhàn)數據或者壞數據。”曹旭東介紹，這樣模型學習的就不是人的駕駛，因為這些極限場景下人的處理本身都不太好，但通過強化學習可以探索出更安全、更安心和更絲滑的駕駛策略。

與特斯拉 FSD 站在同一維度競爭

數據飛輪是 Momenta 可以率先實現強化學習落地的重要原因之一。強化學習的基礎之一就是積累起足夠多的覆蓋長尾、極限場景的高質量數據，此后再通過仿真場景訓練和實車驗證測試。而 Momenta 正是目前國內城市 NOA 第三方智駕市場市占率最高的公司之一。

Momenta 是如此強調數據的重要性，以至于不少行業(yè)人士戲稱他們是一家數據公司。《中國企業(yè)家》此前在報道中引述一位投資人的說法，“他們在搭建數據飛輪上非常專注，甚至有點像一個數據公司。”

行業(yè)中另一個專注于積累數據積累與強化學習訓練的公司是特斯拉。馬斯克在不同場合下都多次表達過數據的重要性，認為他們最大的優(yōu)勢之一就是龐大的量產車輛和每天產生的行駛數據。

事實上，特斯拉 FSD 本身就是一個閉環(huán)的高效數據模型。每一輛行駛在路面上的特斯拉汽車都在源源不斷地為特斯拉產生數據，這些數據又不斷反饋到特斯拉的云端超算中心。

為了加速數據收集和驗證，特斯拉甚至在車端部署了一個名為影子模式（Shadow Mode）的機制，當車輛在真實路面上行駛時，系統(tǒng)會進行模擬決策來與人駕進行對比和觀察，評估和改進算法。

特斯拉影子模式

數據驅動的路徑讓 FSD 快速成長。自 2023 年 FSD V12 版本推出以來，特斯拉在自動駕駛道路上一路狂飆。今年 6 月，特斯拉 Robotaxi 服務首次在美國奧斯汀落地運營，初期僅在小范圍內運營。僅僅 2 個月后，特斯拉 Robotaxi 的覆蓋范圍就增加至 173 平方英里，車隊運營規(guī)模擴大 50%。

馬斯克計劃，Robotaxi 車隊到今年底要覆蓋美國一半人口，“服務區(qū)域和車隊數量都將呈現指數級增長。”在他看來，隨著 Robotaxi 進一步擴張，每輛車每天積累的行駛數據量將是普通車輛的十倍，這些數據或將反哺 FSD 的訓練，幫助現有車型持續(xù)提升自動駕駛性能。

特斯拉的這套邏輯和 Momenta 的“一個飛輪兩條腿”幾乎沒有什么不同。同樣都是通過大面積的量產車輛積累海量數據，同樣也都是通過 Robotaxi 來反哺智能駕駛訓練。曹旭東此前對外解釋過 Momenta 的兩條腿戰(zhàn)略，“先把全無人系統(tǒng)先放到測試車上跑，相對成熟了，再往量產推；然后量產的數據回來了，又能用于發(fā)展下一代全無人產品，兩條腿協(xié)同。”

今年 5 月，Momenta 與享道出行達成戰(zhàn)略合作，雙方將共同打造基于前裝量產的 Robotaxi 車隊，并率先于上海啟動試運營。同一時期，Momenta 還與 Uber 達成戰(zhàn)略合作，首批合作商業(yè)化落地將于 2026 年初在歐洲啟動。9 月 8 日，雙方共同宣布德國慕尼黑將作為聯(lián)合 Robotaxi 項目的首發(fā)城市。

Momenta CEO 曹旭東與 Uber CFO Prashanth Mahendra-Rajah

和市面上多數基于量產車型改造的 Robotaxi 服務不同，Momenta 落地運營的 Robotaxi 車隊完全基于量產車型打造。比如與享道出行的合作中，Robotaxi 車隊就將復用現有上汽智己 LS6 的硬件，無需額外后裝改造。這和特斯拉使用量產 Model Y 落地 Robotaxi 類似，馬斯克同樣執(zhí)著于使用量產車型實現 Robotaxi 服務。

Momenta 在慕尼黑開啟智能輔助駕駛

在曹旭東看來，強化學習大模型的上車將會推動智能駕駛迭代速度越來越快。今年以來，已經有不少行業(yè)人士開始強調強化學習的重要性，無論是 Robotaxi 創(chuàng)業(yè)公司還是新能源車企。即便各家的技術路線有所不同，有的強調世界模型，有的強調 VLA，都無一例外都提出強化學習的重要性。

今年初，DeepSeek-R1 通過純強化學習的訓練機制也讓不少自動駕駛行業(yè)人士受到啟發(fā)。佐思汽研發(fā)布的調研報告指出，強化學習領域的技術創(chuàng)新成果，同樣能夠遷移應用至端到端智能駕駛領域�；趶娀瘜W習的大模型技術路線，為端到端智能駕駛算法的研發(fā)提供了全新思路，有望突破傳統(tǒng)模仿學習的限制。

現在，隨著 Momenta R6 飛輪大模型的上車，強化學習開始真正在量產車型中應用。但它更重要的意義或許在于，智能駕駛系統(tǒng)將不再只是單純地模仿人類，而是可以從真實的駕駛過程中實現自我迭代、自我成長，一個智駕有望超越人駕的安全未來正在到來。

更早之前，曹旭東總結過智駕領域的摩爾定律，軟件體驗每兩年提升 10 倍；硬件 BOM 成本（原材料成本）每兩年降一半。他們的目標是超越智駕的摩爾定律。

原文標題 : 強化學習真正上車，對標 FSD 級別的智駕來了