侵權(quán)投訴
訂閱
糾錯
加入自媒體

VLA 與世界模型之爭:誰才是輔助駕駛的正確方向?

芝能科技出品

輔助駕駛的方向,從端到端之后大家就看不明白了,到了2026年自動駕駛與機(jī)器人的路線之爭被推向了高潮。

但在GTC2026 “選邊站隊”的辯論,我們將這場紛繁復(fù)雜的爭論,拆解為三個收斂的維度:技術(shù)哲學(xué)的分歧、工程實現(xiàn)的瓶頸,以及終極的融合形態(tài)。

01

核心爭議的細(xì)節(jié):預(yù)測“像素”還是預(yù)測“邏輯”?

世界模型與 VLA 的根本分歧,在于預(yù)測目標(biāo)的顆粒度。世界模型的細(xì)節(jié),真正的世界模型不再試圖生成高清的未來視頻(那太費算力),而是生成 Latent Tokens,預(yù)測的是環(huán)境的“狀態(tài)特征”,比如前方車輛在 0.5 秒后的橫向位移概率。

模型不再直接輸出動作,而是先預(yù)測“下一步世界會變成什么樣”,王興興認(rèn)為這種路徑“天花板更高”,是指世界模型在訓(xùn)練中學(xué)習(xí)了重力、摩擦力和運(yùn)動補(bǔ)償。

對于輔助駕駛當(dāng)車輛在雨天側(cè)滑時,模型是基于對路面附著力的物理推演來修正軌跡。

現(xiàn)階段的視頻生成式世界模型算力開銷巨大,很難滿足輔助駕駛所需的毫秒級實時響應(yīng)。

VLA 把感知(看到什么)、語義(導(dǎo)航指令/常識)和行動(怎么打方向)壓進(jìn)同一個 Transformer 框架,鏈路極短,數(shù)據(jù)從“攝像頭”直接流向“執(zhí)行器”,架構(gòu)天然適配車規(guī)級系統(tǒng)的低延遲要求。

將方向盤轉(zhuǎn)角、加速度直接轉(zhuǎn)化為離散的 Token,與視覺、語言 Token 在同一個 Transformer 空間內(nèi)對齊。 

它的前路在于“語義對齊”,當(dāng)你說“靠邊停車”時,VLA 不需要經(jīng)過“語音->文本->邏輯規(guī)劃->控制”的長鏈條,而是直接在 Embedding 空間里將“停車”語義與視覺中的“路沿”特征耦合,輸出 Action。

它強(qiáng)于“擬合”——只要見過足夠多的人類駕駛數(shù)據(jù),它就能開得像人。但它不理解物理法則,一旦進(jìn)入從未見過的長尾場景(Corner Cases),泛化能力就會撞上天花板。

02

輔助駕駛前路的核心難點

無論這兩條技術(shù)路線的如何,終究要回到一個最樸素的迭代和進(jìn)化的結(jié)果,消費者能不能感受到進(jìn)步,這個系統(tǒng)能不能在真實世界里自己“進(jìn)化”?

這個進(jìn)化的閉環(huán)被三座大山死死卡住。每一座山,都對應(yīng)著一個讓工程師掉頭發(fā)的骨頭案。

◎ 第一座山:數(shù)據(jù)閉環(huán)——別讓“無效里程”淹沒AI,現(xiàn)在的自動駕駛測試車每天跑出海量數(shù)據(jù),但說白了,99%都是毫無營養(yǎng)的“垃圾時間”。

 AI 就像一個學(xué)生,天天做一加一等于二的簡單題(常規(guī)巡航),水平永遠(yuǎn)提不高。它真正需要的是那些萬分之一概率的“奧數(shù)題”(事故、極端天氣、鬼探頭),而這些數(shù)據(jù)在現(xiàn)實中極難捕捉。

行業(yè)正在把“世界模型”當(dāng)成一個超高級的自動出題機(jī)。比如理想的 MindSim,它不再死等現(xiàn)實中的車禍,而是在虛擬世界里生成千萬倍于現(xiàn)實的極端場景,再把這些“人造險境”喂給 VLA 模型做強(qiáng)化學(xué)習(xí)。這種“虛實結(jié)合”,讓數(shù)據(jù)閉環(huán)第一次有了主動進(jìn)化的生產(chǎn)力。

◎ 第二座山:推理閉環(huán)——在“腦補(bǔ)”與“逃命”之間找平衡輔助駕駛是一個必須跟死神賽跑的強(qiáng)實時系統(tǒng)。

如果讓 AI 的“大腦”像拍電影一樣,把未來幾秒的畫面一幀幀高清還原出來(像素級生成),那光算力延遲就能讓車撞上三回了。

在時速 120 公里的高速上,毫秒級的卡頓就是生與死的距離。工程師們學(xué)會了“抓大放小”,生成完整畫面太慢,那就干脆不畫了,直接在“隱空間”里做數(shù)學(xué)題。

系統(tǒng)不再去細(xì)摳路邊的樹是什么顏色,而是把障礙物抽象成一個個帶概率的“特征點(Token)”,只預(yù)測它們未來 2 秒的位置分布。這種舍棄掉視覺贅肉的“信息壓縮”,用工程上的克制換回了保命的實時性。

◎ 第三座山:系統(tǒng)閉環(huán)純神經(jīng)網(wǎng)絡(luò)模型最大的問題是它的“不可知性”。

AI 表現(xiàn)得再像老司機(jī),但還是一個黑盒。誰也沒法保證,在某種從未見過的光影組合下,它會不會突然抽風(fēng)把白車看成云朵。這種不確定性,是車規(guī)級安全絕對無法接受的。

英偉達(dá)等巨頭推崇的“混合架構(gòu)”,給 AI 焊上了一道物理圍欄。

端到端模型負(fù)責(zé)“開得絲滑”,像小腦一樣處理日常加減速;底層的安全仲裁器則負(fù)責(zé)“守住底線”,基于剛性規(guī)則的代碼。一旦 AI 算出的動作距離前車太近,或者壓了實線,規(guī)則引擎會瞬間切斷 AI 的控制權(quán)強(qiáng)制接管。

當(dāng)前VLA(視覺語言動作模型)正在全面走向“世界模型化”,曾經(jīng)的技術(shù)分歧正在逐漸消失,終局已經(jīng)明確:

未來的系統(tǒng)將是一個分層的融合架構(gòu),我們可以將這個“數(shù)字大腦”抽象為三層,分別是負(fù)責(zé)物理理解與未來推演、為系統(tǒng)提供“常識”和“泛化力”的世界建模層。

負(fù)責(zé)將認(rèn)知轉(zhuǎn)化為具體Action、整合多模態(tài)信息并輸出符合動力學(xué)約束絲滑軌跡的決策生成層(VLA Layer),以及負(fù)責(zé)規(guī)則兜底與功能安全的安全執(zhí)行層(System Layer)。

關(guān)于其發(fā)展節(jié)奏,核心判斷是3年看落地,10年看上限。

◎ 短期來看(2026-2028)將由VLA主導(dǎo),它已經(jīng)具備工程可行性,英偉達(dá)和理想給出的2028年L4時間表,正是基于VLA架構(gòu)的成熟;

◎ 而長期來看(2030+),則由世界模型定勝負(fù),誰能率先完成“世界理解→自動生成數(shù)據(jù)→現(xiàn)實驗證→模型自進(jìn)化”的全閉環(huán),誰就能真正統(tǒng)治無人駕駛和通用機(jī)器人領(lǐng)域。

小結(jié)

GTC 2026的爭論,VLA是工程師的答案,目標(biāo)是“先把車開好”,追求工程落地與量產(chǎn);世界模型是科學(xué)家的理想,目標(biāo)是“先看懂世界”,追求通用與泛化。

而如今這兩條路已經(jīng)完成了在高處的會師——當(dāng)VLA開始學(xué)習(xí)3D空間特征(如3D ViT),當(dāng)世界模型開始被壓縮進(jìn)實時芯片(如Thor),讓這套復(fù)雜的融合架構(gòu),走好的玩家才是贏家。

       原文標(biāo)題 : VLA 與世界模型之爭:誰才是輔助駕駛的正確方向?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號