123,123

理想的自動駕駛基座：MindVLA-o1在做什么？

2026-03-18 13:50

芝能智芯

關(guān)注

芝能智芯出品

在 NVIDIA GTC 2026 上，理想汽車發(fā)布了新一代自動駕駛基座模型 MindVLA-o1。官方的描述是"自動駕駛進入物理智能體時代"。

這類表述在發(fā)布會上出現(xiàn)太多次，很容易被當成話術(shù)略過。

這意味在工程層面做了什么？自動駕駛這件事本身的問題定義正在被重寫。

Part 1問題變了，自動駕駛在解決什么

三次躍遷之后，卡在哪里了

過去十年，自動駕駛的技術(shù)路徑經(jīng)歷了三次迭代。

◎ 第一代是規(guī)則驅(qū)動：工程師手寫規(guī)則，告訴系統(tǒng)什么情況下剎車、什么情況下變道。這套方法在結(jié)構(gòu)化道路上能用，但規(guī)則寫不完，現(xiàn)實比規(guī)則復(fù)雜得多。

◎ 第二代是端到端：不再手寫規(guī)則，而是喂給模型海量數(shù)據(jù)，讓它自己學(xué)出駕駛策略。這解決了規(guī)則無法窮舉的問題，但新的問題出現(xiàn)了——模型學(xué)會的是數(shù)據(jù)里的模式，遇到訓(xùn)練數(shù)據(jù)覆蓋不到的情況就容易崩。

◎ 第三代是 VLA，也就是把視覺、語言、行動整合進一個架構(gòu)，讓系統(tǒng)具備跨任務(wù)的理解和泛化能力，不再只是一個駕駛專用的預(yù)測機器。

但 VLA 也有它自己的天花板。它能理解場景，能做出決策，但它對世界的理解是靜態(tài)的——它知道現(xiàn)在是什么狀態(tài)，但不能很好地推演這個狀態(tài)接下來會怎么變。

一個行人正在路邊站著，VLA 能識別他，但很難預(yù)判他下一秒會不會突然走出來。這不是感知精度的問題，而是對物理世界的因果結(jié)構(gòu)缺乏理解。

◎ 第四次躍遷：從"開車"到"理解世界"

MindVLA-o1 想解決的正是這個缺口。

它的核心主張是：自動駕駛系統(tǒng)不應(yīng)該只是一個駕駛?cè)蝿?wù)執(zhí)行器，而應(yīng)該是一個能在物理世界中持續(xù)認知、預(yù)測和行動的智能體。

這個表述聽起來抽象，但落到工程上有一個很具體的含義：系統(tǒng)需要在內(nèi)部建立一個關(guān)于世界"接下來會發(fā)生什么"的模型，而不只是對當前狀態(tài)做出反應(yīng)。這就是"世界模型"（World Model）的意義所在。

過去一年，自動駕駛行業(yè)在 VLA 和世界模型之間存在一個技術(shù)路線的爭論，有人認為應(yīng)該押注 VLA，有人認為世界模型才是未來。

理想給出的答案是：這兩件事不是競爭關(guān)系，而是分工關(guān)系：

◎ VLA 負責(zé)決策閉環(huán)，在車上實時運行；

◎ 世界模型負責(zé)認知和訓(xùn)練，在云端生成數(shù)據(jù)、模擬場景、優(yōu)化策略。

車端要的是快，云端要的是深，兩者承擔(dān)不同的職責(zé)，在不同的地方發(fā)揮價值。

這個分工聽起來合理，但把它真正做通，需要解決幾個過去沒有人徹底解決的工程問題。

Part 2

理想怎么做——

三個關(guān)鍵的工程選擇

讓模型學(xué)會"世界如何變化"，而不是"當前是什么樣"

傳統(tǒng)自動駕駛的感知系統(tǒng)，處理的是空間問題：這里有什么，那里有什么，彼此的位置關(guān)系是什么。

這個問題被描述成一張鳥瞰圖——把三維世界壓平成二維平面，標注出障礙物和車道線。這套方法在很長時間里夠用，但它有一個根本性的局限：它丟失了時間。

MindVLA-o1 的第一個關(guān)鍵選擇，是從空間表示轉(zhuǎn)向時空表示，引入了一種叫做"下一幀預(yù)測"的訓(xùn)練方式：模型不只是學(xué)習(xí)"當前世界是什么狀態(tài)"，而是學(xué)習(xí)"這個狀態(tài)接下來會怎么變"。

同時，感知編碼器升級到了三維結(jié)構(gòu)，融合了攝像頭和激光雷達的信息，保留了高度和動態(tài)關(guān)系——這些在鳥瞰圖里會被壓平的信息。

這個改變的意義在于：模型開始理解物理因果關(guān)系，而不只是識別靜態(tài)模式。

一輛車正在加速，下一幀它會在哪里；一個行人正在轉(zhuǎn)身，下一步他最可能走向哪個方向——這類判斷需要對世界的動態(tài)結(jié)構(gòu)有理解，光靠感知精度是不夠的。

把"想象未來"的成本壓下來

有了對世界動態(tài)的理解，如何在車上實時使用這種理解。世界模型的計算代價很高，直接在車端運行幾乎不可能。

理想的解法是把預(yù)測過程壓縮到"隱空間"里進行。所謂隱空間，是模型內(nèi)部的一種壓縮表示——不是真實世界的圖像或點云，而是經(jīng)過編碼之后的抽象向量。

在隱空間里推演未來，比在原始感知數(shù)據(jù)層面推演要快得多、省得多。訓(xùn)練的時候先用視頻數(shù)據(jù)學(xué)會如何壓縮和解壓縮這種表示，然后在隱空間里建立預(yù)測未來的能力，最后再把這種預(yù)測能力和駕駛決策聯(lián)合訓(xùn)練。

結(jié)果是：系統(tǒng)獲得了"想象未來"的能力，但把這種能力的計算成本壓縮到了可以在車端實時使用的級別。

從預(yù)測軌跡到生成軌跡

傳統(tǒng)的自動駕駛規(guī)劃，做的是一個預(yù)測問題：給定當前狀態(tài)，預(yù)測出未來最可能的路徑點序列。MindVLA-o1 把這件事改造成了一個生成問題：用類似大語言模型生成文字的方式，生成駕駛軌跡。

這個轉(zhuǎn)變聽起來像換了個說法，但工程含義很不同。

◎ 生成模型可以同時考慮多種可能性，然后通過多輪迭代優(yōu)化收斂到最好的解；

◎ 而傳統(tǒng)預(yù)測模型更像是沿著一條確定的路徑走下去。

具體實現(xiàn)上，理想用了三項技術(shù)的組合：混合專家模型（不同駕駛場景交給不同專家模塊處理）、并行解碼（所有軌跡點同時生成，避免順序生成帶來的延遲積累）、擴散優(yōu)化（多輪迭代讓軌跡越來越平滑穩(wěn)定）。

這三件事加在一起解決的是一個實際問題：在復(fù)雜場景里，軌跡生成既要快，又要穩(wěn)，還要能覆蓋多種不同的處置策略。以前這三個要求很難同時滿足，現(xiàn)在有了一套組合解法。

模型結(jié)構(gòu)之外，還有一個更根本的問題：數(shù)據(jù)從哪里來。

自動駕駛最難搞定的不是常見場景，而是長尾場景——那些在真實道路上出現(xiàn)概率很低、但一旦出現(xiàn)就很危險的情況�？空鎸嵅杉瘮�(shù)據(jù)來覆蓋這些場景，成本極高，而且有些極端情況根本不可能在真實路測中主動制造。

MindVLA-o1 的解法是用世界模型生成仿真場景，再用強化學(xué)習(xí)在這些場景里讓模型自己探索最優(yōu)策略。這套流程在效率上有一個關(guān)鍵改進：場景生成從逐步重建改成了前饋生成，速度快了約兩倍，訓(xùn)練成本降低了約 75%。

更重要的是這套機制帶來的能力：系統(tǒng)不再只是被動地從人類標注數(shù)據(jù)里學(xué)習(xí)，而是可以主動生成從未見過的情況，然后在其中試錯、優(yōu)化、迭代。這是一種質(zhì)的變化——從"被教會"到"自己學(xué)會"。

最后一個工程選擇是軟硬件協(xié)同。模型再先進，如果在車端硬件上跑不起來，等于白做。

理想引入了一套叫做 Roofline 的分析框架，用來在模型結(jié)構(gòu)和硬件性能之間建立精確的映射關(guān)系，再通過大規(guī)模架構(gòu)搜索——測試了大約 2000 種不同的模型配置——找到在精度和延遲之間的最優(yōu)平衡點。

一個有意思的發(fā)現(xiàn)是：在車端場景里，更"寬但淺"的模型結(jié)構(gòu)優(yōu)于深層結(jié)構(gòu)。這與大語言模型的經(jīng)驗相反，反映的是車端對實時性的要求比對參數(shù)規(guī)模更敏感。

這套探索過程，過去需要數(shù)月，現(xiàn)在壓縮到了數(shù)天。

Part 3這件事更大的意義

車，是目前最好的具身智能載體

MindVLA-o1 最值得關(guān)注的方向：自動駕駛正在成為通用物理 AI 的入口。

這件事的邏輯并不復(fù)雜。要訓(xùn)練一個能在真實物理世界中行動的 AI，你需要三件東西：完整的感知系統(tǒng)、實時的決策需求、大規(guī)模的真實數(shù)據(jù)。

汽車恰好同時具備這三件東西，而且已經(jīng)有數(shù)百萬輛在路上跑，每天產(chǎn)生海量的真實場景數(shù)據(jù)。

相比之下，機器人雖然是更通用的具身載體，但它的規(guī)�；渴疬€要等很多年。

誰在自動駕駛上建立了強大的感知、預(yù)測、決策和學(xué)習(xí)體系，誰就在通用物理 AI 的競爭中擁有了一個很難被繞過的先發(fā)優(yōu)勢。

同一套模型，可以控制機器人

理想已經(jīng)明確，MindVLA-o1 的架構(gòu)不只用于駕駛，同一套 VLA 模型可以遷移到機器人控制上。這不是一個遙遠的路線圖，而是一個工程上已經(jīng)在驗證的方向。

原因在于，駕駛和機器人在底層問題上高度相似：都需要感知三維空間，都需要理解物體的運動和意圖，都需要在實時約束下做出行動決策。兩者的差異更多在于執(zhí)行器，一個是方向盤和油門，一個是機械臂和腿。

如果感知和決策的底層模型是通用的，那么遷移的成本會大幅降低。這是一個值得認真看待的技術(shù)判斷，自動駕駛的邊界可能比我們通常想的要寬得多。

過去幾年，自動駕駛的軍備競賽主要發(fā)生在兩個地方：傳感器數(shù)量和城市覆蓋里程。這兩件事當然重要，但它們正在快速成為行業(yè)基線，不再是真正的差異化來源。

小結(jié)

MindVLA-o1 所代表的方向，指向的是另一維度的競爭：數(shù)據(jù)閉環(huán)能力、仿真能力、強化學(xué)習(xí)基礎(chǔ)設(shè)施、系統(tǒng)工程整合能力。

這些東西都不是一兩年能追上的，它們依賴長期的技術(shù)積累和大規(guī)模的工程投入，本質(zhì)上是組織能力，而不只是模型能力。

MindVLA-o1 的意義或許不在于它今天是否已經(jīng)領(lǐng)先，而在于它標志著競爭維度的一次遷移，從"誰的感知更準"到"誰的系統(tǒng)進化更快"。后一場競爭，才剛剛開始。

原文標題 : 理想的自動駕駛基座：MindVLA-o1在做什么？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞