訂閱
糾錯
加入自媒體

理想的自動駕駛基座:MindVLA-o1在做什么?

芝能智芯出品

在 NVIDIA GTC 2026 上,理想汽車發(fā)布了新一代自動駕駛基座模型 MindVLA-o1。官方的描述是"自動駕駛進入物理智能體時代"。

這類表述在發(fā)布會上出現(xiàn)太多次,很容易被當成話術(shù)略過。

這意味在工程層面做了什么?自動駕駛這件事本身的問題定義正在被重寫。

Part 1問題變了,自動駕駛在解決什么

三次躍遷之后,卡在哪里了

過去十年,自動駕駛的技術(shù)路徑經(jīng)歷了三次迭代。

 第一代是規(guī)則驅(qū)動:工程師手寫規(guī)則,告訴系統(tǒng)什么情況下剎車、什么情況下變道。這套方法在結(jié)構(gòu)化道路上能用,但規(guī)則寫不完,現(xiàn)實比規(guī)則復(fù)雜得多。

 第二代是端到端:不再手寫規(guī)則,而是喂給模型海量數(shù)據(jù),讓它自己學(xué)出駕駛策略。這解決了規(guī)則無法窮舉的問題,但新的問題出現(xiàn)了——模型學(xué)會的是數(shù)據(jù)里的模式,遇到訓(xùn)練數(shù)據(jù)覆蓋不到的情況就容易崩。

 第三代是 VLA,也就是把視覺、語言、行動整合進一個架構(gòu),讓系統(tǒng)具備跨任務(wù)的理解和泛化能力,不再只是一個駕駛專用的預(yù)測機器。

但 VLA 也有它自己的天花板。它能理解場景,能做出決策,但它對世界的理解是靜態(tài)的——它知道現(xiàn)在是什么狀態(tài),但不能很好地推演這個狀態(tài)接下來會怎么變。

一個行人正在路邊站著,VLA 能識別他,但很難預(yù)判他下一秒會不會突然走出來。這不是感知精度的問題,而是對物理世界的因果結(jié)構(gòu)缺乏理解。

 第四次躍遷:從"開車"到"理解世界"

MindVLA-o1 想解決的正是這個缺口。

它的核心主張是:自動駕駛系統(tǒng)不應(yīng)該只是一個駕駛?cè)蝿?wù)執(zhí)行器,而應(yīng)該是一個能在物理世界中持續(xù)認知、預(yù)測和行動的智能體。

這個表述聽起來抽象,但落到工程上有一個很具體的含義:系統(tǒng)需要在內(nèi)部建立一個關(guān)于世界"接下來會發(fā)生什么"的模型,而不只是對當前狀態(tài)做出反應(yīng)。這就是"世界模型"(World Model)的意義所在。

過去一年,自動駕駛行業(yè)在 VLA 和世界模型之間存在一個技術(shù)路線的爭論,有人認為應(yīng)該押注 VLA,有人認為世界模型才是未來。

理想給出的答案是:這兩件事不是競爭關(guān)系,而是分工關(guān)系:

 VLA 負責(zé)決策閉環(huán),在車上實時運行;

 世界模型負責(zé)認知和訓(xùn)練,在云端生成數(shù)據(jù)、模擬場景、優(yōu)化策略。

車端要的是快,云端要的是深,兩者承擔(dān)不同的職責(zé),在不同的地方發(fā)揮價值。

這個分工聽起來合理,但把它真正做通,需要解決幾個過去沒有人徹底解決的工程問題。

Part 2

理想怎么做——

三個關(guān)鍵的工程選擇

讓模型學(xué)會"世界如何變化",而不是"當前是什么樣"

傳統(tǒng)自動駕駛的感知系統(tǒng),處理的是空間問題:這里有什么,那里有什么,彼此的位置關(guān)系是什么。

這個問題被描述成一張鳥瞰圖——把三維世界壓平成二維平面,標注出障礙物和車道線。這套方法在很長時間里夠用,但它有一個根本性的局限:它丟失了時間。

MindVLA-o1 的第一個關(guān)鍵選擇,是從空間表示轉(zhuǎn)向時空表示,引入了一種叫做"下一幀預(yù)測"的訓(xùn)練方式:模型不只是學(xué)習(xí)"當前世界是什么狀態(tài)",而是學(xué)習(xí)"這個狀態(tài)接下來會怎么變"。

同時,感知編碼器升級到了三維結(jié)構(gòu),融合了攝像頭和激光雷達的信息,保留了高度和動態(tài)關(guān)系——這些在鳥瞰圖里會被壓平的信息。

這個改變的意義在于:模型開始理解物理因果關(guān)系,而不只是識別靜態(tài)模式。

一輛車正在加速,下一幀它會在哪里;一個行人正在轉(zhuǎn)身,下一步他最可能走向哪個方向——這類判斷需要對世界的動態(tài)結(jié)構(gòu)有理解,光靠感知精度是不夠的。

把"想象未來"的成本壓下來

有了對世界動態(tài)的理解,如何在車上實時使用這種理解。世界模型的計算代價很高,直接在車端運行幾乎不可能。

理想的解法是把預(yù)測過程壓縮到"隱空間"里進行。所謂隱空間,是模型內(nèi)部的一種壓縮表示——不是真實世界的圖像或點云,而是經(jīng)過編碼之后的抽象向量。

在隱空間里推演未來,比在原始感知數(shù)據(jù)層面推演要快得多、省得多。訓(xùn)練的時候先用視頻數(shù)據(jù)學(xué)會如何壓縮和解壓縮這種表示,然后在隱空間里建立預(yù)測未來的能力,最后再把這種預(yù)測能力和駕駛決策聯(lián)合訓(xùn)練。

結(jié)果是:系統(tǒng)獲得了"想象未來"的能力,但把這種能力的計算成本壓縮到了可以在車端實時使用的級別。

從預(yù)測軌跡到生成軌跡

傳統(tǒng)的自動駕駛規(guī)劃,做的是一個預(yù)測問題:給定當前狀態(tài),預(yù)測出未來最可能的路徑點序列。MindVLA-o1 把這件事改造成了一個生成問題:用類似大語言模型生成文字的方式,生成駕駛軌跡。

這個轉(zhuǎn)變聽起來像換了個說法,但工程含義很不同。

 生成模型可以同時考慮多種可能性,然后通過多輪迭代優(yōu)化收斂到最好的解;

 而傳統(tǒng)預(yù)測模型更像是沿著一條確定的路徑走下去。

具體實現(xiàn)上,理想用了三項技術(shù)的組合:混合專家模型(不同駕駛場景交給不同專家模塊處理)、并行解碼(所有軌跡點同時生成,避免順序生成帶來的延遲積累)、擴散優(yōu)化(多輪迭代讓軌跡越來越平滑穩(wěn)定)。

這三件事加在一起解決的是一個實際問題:在復(fù)雜場景里,軌跡生成既要快,又要穩(wěn),還要能覆蓋多種不同的處置策略。以前這三個要求很難同時滿足,現(xiàn)在有了一套組合解法。

模型結(jié)構(gòu)之外,還有一個更根本的問題:數(shù)據(jù)從哪里來。

自動駕駛最難搞定的不是常見場景,而是長尾場景——那些在真實道路上出現(xiàn)概率很低、但一旦出現(xiàn)就很危險的情況?空鎸嵅杉瘮(shù)據(jù)來覆蓋這些場景,成本極高,而且有些極端情況根本不可能在真實路測中主動制造。

MindVLA-o1 的解法是用世界模型生成仿真場景,再用強化學(xué)習(xí)在這些場景里讓模型自己探索最優(yōu)策略。這套流程在效率上有一個關(guān)鍵改進:場景生成從逐步重建改成了前饋生成,速度快了約兩倍,訓(xùn)練成本降低了約 75%。

更重要的是這套機制帶來的能力:系統(tǒng)不再只是被動地從人類標注數(shù)據(jù)里學(xué)習(xí),而是可以主動生成從未見過的情況,然后在其中試錯、優(yōu)化、迭代。這是一種質(zhì)的變化——從"被教會"到"自己學(xué)會"。

最后一個工程選擇是軟硬件協(xié)同。模型再先進,如果在車端硬件上跑不起來,等于白做。

理想引入了一套叫做 Roofline 的分析框架,用來在模型結(jié)構(gòu)和硬件性能之間建立精確的映射關(guān)系,再通過大規(guī)模架構(gòu)搜索——測試了大約 2000 種不同的模型配置——找到在精度和延遲之間的最優(yōu)平衡點。

一個有意思的發(fā)現(xiàn)是:在車端場景里,更"寬但淺"的模型結(jié)構(gòu)優(yōu)于深層結(jié)構(gòu)。這與大語言模型的經(jīng)驗相反,反映的是車端對實時性的要求比對參數(shù)規(guī)模更敏感。

這套探索過程,過去需要數(shù)月,現(xiàn)在壓縮到了數(shù)天。

Part 3這件事更大的意義

車,是目前最好的具身智能載體

MindVLA-o1 最值得關(guān)注的方向:自動駕駛正在成為通用物理 AI 的入口。

這件事的邏輯并不復(fù)雜。要訓(xùn)練一個能在真實物理世界中行動的 AI,你需要三件東西:完整的感知系統(tǒng)、實時的決策需求、大規(guī)模的真實數(shù)據(jù)。

汽車恰好同時具備這三件東西,而且已經(jīng)有數(shù)百萬輛在路上跑,每天產(chǎn)生海量的真實場景數(shù)據(jù)。

相比之下,機器人雖然是更通用的具身載體,但它的規(guī);渴疬要等很多年。

誰在自動駕駛上建立了強大的感知、預(yù)測、決策和學(xué)習(xí)體系,誰就在通用物理 AI 的競爭中擁有了一個很難被繞過的先發(fā)優(yōu)勢。

同一套模型,可以控制機器人

理想已經(jīng)明確,MindVLA-o1 的架構(gòu)不只用于駕駛,同一套 VLA 模型可以遷移到機器人控制上。這不是一個遙遠的路線圖,而是一個工程上已經(jīng)在驗證的方向。

原因在于,駕駛和機器人在底層問題上高度相似:都需要感知三維空間,都需要理解物體的運動和意圖,都需要在實時約束下做出行動決策。兩者的差異更多在于執(zhí)行器,一個是方向盤和油門,一個是機械臂和腿。

如果感知和決策的底層模型是通用的,那么遷移的成本會大幅降低。這是一個值得認真看待的技術(shù)判斷,自動駕駛的邊界可能比我們通常想的要寬得多。

過去幾年,自動駕駛的軍備競賽主要發(fā)生在兩個地方:傳感器數(shù)量和城市覆蓋里程。這兩件事當然重要,但它們正在快速成為行業(yè)基線,不再是真正的差異化來源。

小結(jié)

MindVLA-o1 所代表的方向,指向的是另一維度的競爭:數(shù)據(jù)閉環(huán)能力、仿真能力、強化學(xué)習(xí)基礎(chǔ)設(shè)施、系統(tǒng)工程整合能力。

這些東西都不是一兩年能追上的,它們依賴長期的技術(shù)積累和大規(guī)模的工程投入,本質(zhì)上是組織能力,而不只是模型能力。

MindVLA-o1 的意義或許不在于它今天是否已經(jīng)領(lǐng)先,而在于它標志著競爭維度的一次遷移,從"誰的感知更準"到"誰的系統(tǒng)進化更快"。后一場競爭,才剛剛開始。

       原文標題 : 理想的自動駕駛基座:MindVLA-o1在做什么?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    智能制造 獵頭職位 更多
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號