123,123,123

VLA 與世界模型之爭：誰才是輔助駕駛的正確方向？

2026-03-26 14:10

芝能科技出品

輔助駕駛的方向，從端到端之后大家就看不明白了，到了2026年自動駕駛與機(jī)器人的路線之爭被推向了高潮。

但在GTC2026 “選邊站隊”的辯論，我們將這場紛繁復(fù)雜的爭論，拆解為三個收斂的維度：技術(shù)哲學(xué)的分歧、工程實現(xiàn)的瓶頸，以及終極的融合形態(tài)。

核心爭議的細(xì)節(jié)：預(yù)測“像素”還是預(yù)測“邏輯”？

世界模型與 VLA 的根本分歧，在于預(yù)測目標(biāo)的顆粒度。世界模型的細(xì)節(jié)，真正的世界模型不再試圖生成高清的未來視頻（那太費算力），而是生成 Latent Tokens，預(yù)測的是環(huán)境的“狀態(tài)特征”，比如前方車輛在 0.5 秒后的橫向位移概率。

模型不再直接輸出動作，而是先預(yù)測“下一步世界會變成什么樣”，王興興認(rèn)為這種路徑“天花板更高”，是指世界模型在訓(xùn)練中學(xué)習(xí)了重力、摩擦力和運(yùn)動補(bǔ)償。

對于輔助駕駛當(dāng)車輛在雨天側(cè)滑時，模型是基于對路面附著力的物理推演來修正軌跡。

現(xiàn)階段的視頻生成式世界模型算力開銷巨大，很難滿足輔助駕駛所需的毫秒級實時響應(yīng)。

VLA 把感知（看到什么）、語義（導(dǎo)航指令/常識）和行動（怎么打方向）壓進(jìn)同一個 Transformer 框架，鏈路極短，數(shù)據(jù)從“攝像頭”直接流向“執(zhí)行器”，架構(gòu)天然適配車規(guī)級系統(tǒng)的低延遲要求。

將方向盤轉(zhuǎn)角、加速度直接轉(zhuǎn)化為離散的 Token，與視覺、語言 Token 在同一個 Transformer 空間內(nèi)對齊。

它的前路在于“語義對齊”，當(dāng)你說“靠邊停車”時，VLA 不需要經(jīng)過“語音->文本->邏輯規(guī)劃->控制”的長鏈條，而是直接在 Embedding 空間里將“停車”語義與視覺中的“路沿”特征耦合，輸出 Action。

它強(qiáng)于“擬合”——只要見過足夠多的人類駕駛數(shù)據(jù)，它就能開得像人。但它不理解物理法則，一旦進(jìn)入從未見過的長尾場景（Corner Cases），泛化能力就會撞上天花板。

輔助駕駛前路的核心難點

無論這兩條技術(shù)路線的如何，終究要回到一個最樸素的迭代和進(jìn)化的結(jié)果，消費者能不能感受到進(jìn)步，這個系統(tǒng)能不能在真實世界里自己“進(jìn)化”？

這個進(jìn)化的閉環(huán)被三座大山死死卡住。每一座山，都對應(yīng)著一個讓工程師掉頭發(fā)的骨頭案。

◎ 第一座山：數(shù)據(jù)閉環(huán)——別讓“無效里程”淹沒AI，現(xiàn)在的自動駕駛測試車每天跑出海量數(shù)據(jù)，但說白了，99%都是毫無營養(yǎng)的“垃圾時間”。

AI 就像一個學(xué)生，天天做一加一等于二的簡單題（常規(guī)巡航），水平永遠(yuǎn)提不高。它真正需要的是那些萬分之一概率的“奧數(shù)題”（事故、極端天氣、鬼探頭），而這些數(shù)據(jù)在現(xiàn)實中極難捕捉。

行業(yè)正在把“世界模型”當(dāng)成一個超高級的自動出題機(jī)。比如理想的 MindSim，它不再死等現(xiàn)實中的車禍，而是在虛擬世界里生成千萬倍于現(xiàn)實的極端場景，再把這些“人造險境”喂給 VLA 模型做強(qiáng)化學(xué)習(xí)。這種“虛實結(jié)合”，讓數(shù)據(jù)閉環(huán)第一次有了主動進(jìn)化的生產(chǎn)力。

◎ 第二座山：推理閉環(huán)——在“腦補(bǔ)”與“逃命”之間找平衡輔助駕駛是一個必須跟死神賽跑的強(qiáng)實時系統(tǒng)。

如果讓 AI 的“大腦”像拍電影一樣，把未來幾秒的畫面一幀幀高清還原出來（像素級生成），那光算力延遲就能讓車撞上三回了。

在時速 120 公里的高速上，毫秒級的卡頓就是生與死的距離。工程師們學(xué)會了“抓大放小”，生成完整畫面太慢，那就干脆不畫了，直接在“隱空間”里做數(shù)學(xué)題。

系統(tǒng)不再去細(xì)摳路邊的樹是什么顏色，而是把障礙物抽象成一個個帶概率的“特征點（Token）”，只預(yù)測它們未來 2 秒的位置分布。這種舍棄掉視覺贅肉的“信息壓縮”，用工程上的克制換回了保命的實時性。

◎ 第三座山：系統(tǒng)閉環(huán)純神經(jīng)網(wǎng)絡(luò)模型最大的問題是它的“不可知性”。

AI 表現(xiàn)得再像老司機(jī)，但還是一個黑盒。誰也沒法保證，在某種從未見過的光影組合下，它會不會突然抽風(fēng)把白車看成云朵。這種不確定性，是車規(guī)級安全絕對無法接受的。

英偉達(dá)等巨頭推崇的“混合架構(gòu)”，給 AI 焊上了一道物理圍欄。

端到端模型負(fù)責(zé)“開得絲滑”，像小腦一樣處理日常加減速；底層的安全仲裁器則負(fù)責(zé)“守住底線”，基于剛性規(guī)則的代碼。一旦 AI 算出的動作距離前車太近，或者壓了實線，規(guī)則引擎會瞬間切斷 AI 的控制權(quán)強(qiáng)制接管。

當(dāng)前VLA（視覺語言動作模型）正在全面走向“世界模型化”，曾經(jīng)的技術(shù)分歧正在逐漸消失，終局已經(jīng)明確：

未來的系統(tǒng)將是一個分層的融合架構(gòu)，我們可以將這個“數(shù)字大腦”抽象為三層，分別是負(fù)責(zé)物理理解與未來推演、為系統(tǒng)提供“常識”和“泛化力”的世界建模層。

負(fù)責(zé)將認(rèn)知轉(zhuǎn)化為具體Action、整合多模態(tài)信息并輸出符合動力學(xué)約束絲滑軌跡的決策生成層（VLA Layer），以及負(fù)責(zé)規(guī)則兜底與功能安全的安全執(zhí)行層（System Layer）。

關(guān)于其發(fā)展節(jié)奏，核心判斷是3年看落地，10年看上限。

◎ 短期來看（2026-2028）將由VLA主導(dǎo)，它已經(jīng)具備工程可行性，英偉達(dá)和理想給出的2028年L4時間表，正是基于VLA架構(gòu)的成熟；

◎ 而長期來看（2030+），則由世界模型定勝負(fù)，誰能率先完成“世界理解→自動生成數(shù)據(jù)→現(xiàn)實驗證→模型自進(jìn)化”的全閉環(huán)，誰就能真正統(tǒng)治無人駕駛和通用機(jī)器人領(lǐng)域。

小結(jié)

GTC 2026的爭論，VLA是工程師的答案，目標(biāo)是“先把車開好”，追求工程落地與量產(chǎn)；世界模型是科學(xué)家的理想，目標(biāo)是“先看懂世界”，追求通用與泛化。

而如今這兩條路已經(jīng)完成了在高處的會師——當(dāng)VLA開始學(xué)習(xí)3D空間特征（如3D ViT），當(dāng)世界模型開始被壓縮進(jìn)實時芯片（如Thor），讓這套復(fù)雜的融合架構(gòu)，走好的玩家才是贏家。

原文標(biāo)題 : VLA 與世界模型之爭：誰才是輔助駕駛的正確方向？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

行業(yè)報告

2025年激光雷達(dá)應(yīng)用市場調(diào)研及前景預(yù)測報告
2025年中國光電傳感器市場發(fā)展現(xiàn)狀及投資前景分析
2025年中國汽車電子行業(yè)市場發(fā)展現(xiàn)狀及投資前景分析
2025年新能源汽車充電樁市場分析報告