123,123,123

小鵬和理想均押注VLA，兩者技術(shù)各有啥特色？

2026-03-19 10:47

隨著高級輔助駕駛功能越發(fā)完善，高速NOA、城市NOA的使用已經(jīng)較為普遍，這其中離不開VLA（視覺-語言-動作）模型的推動。

VLA大模型的出現(xiàn)，也標(biāo)志著行業(yè)正式從“感知識別”邁向了“理解決策”。以前的智駕系統(tǒng)更像是一個經(jīng)驗豐富的“反射神經(jīng)”，看到紅燈就停，看到障礙物就繞，但它并不理解為什么要這么做。

VLA模型把人類的常識、邏輯推理能力與駕駛行為直接掛鉤。通過將海量的圖像數(shù)據(jù)與語言理解能力結(jié)合，模型不再只是計算像素點，而是像人類一樣去“觀察”并“理解”物理世界的因果關(guān)系，最后直接輸出方向盤轉(zhuǎn)角、剎車力度等控制指令。這種從輸入到輸出的跨越，讓車具備了處理從未見過的新場景的能力。

簡單理解下VLA模型，其就是讓車輛做到了“看懂世界、理解意圖、做出動作”這三件事。

圖片源自：網(wǎng)絡(luò)

最近理想汽車和小鵬也相繼發(fā)布了最新的VLA模型，讓自動駕駛的技術(shù)競爭進入了一個全新的階段。那這兩家發(fā)布的VLA模型都有哪些特色？都就解決了自動駕駛的哪些問題？今天智駕最前沿就帶大家來聊一聊。

在開始今天的話題前，先申明一下，本次內(nèi)容的素材均源自于理想與小鵬發(fā)布的內(nèi)容，若內(nèi)容出現(xiàn)歧義或存在錯誤，也歡迎大家評論區(qū)補充。

理想MindVLA-o1，在隱空間里推演未來

從理想的MindVLA-o1的介紹中來看，MindVLA-o1偏“體系化設(shè)計”。它不只是一個模型，而是一整套從數(shù)據(jù)、模型到訓(xùn)練和部署的閉環(huán)系統(tǒng)。

圖片源自：理想汽車微信公眾號

理想明確引入了3D建模能力。通過視覺模型結(jié)合激光雷達點云作為幾何提示，讓模型在內(nèi)部形成更穩(wěn)定的空間結(jié)構(gòu)表示。這一點和純視覺路線相比，更強調(diào)“物理一致性”，也更利于處理如遮擋、坡道、非規(guī)則障礙物等復(fù)雜空間關(guān)系。

理想還在MindVLA-o1中引入了預(yù)測式隱世界模型，可以在隱空間中高效模擬未來。簡單理解，就是讓模型不僅可以看當(dāng)前，還能在內(nèi)部模擬未來幾秒的場景變化。對于自動駕駛來說，很多駕駛動作本質(zhì)上就是對未來的預(yù)測，這種能力如果做得好，可以顯著提升決策穩(wěn)定性。

在行為生成部分，理想還采用了VLA-MoE（混合專家模型）+Action Expert（動作專家）、并行解碼（Parallel Decoding）以及Discrete Diffusion（離散擴散）等更結(jié)構(gòu)化的方式。這類設(shè)計的目標(biāo)很明確，就是讓輸出軌跡在時間上更連續(xù)，在物理上更合理。

理想還投入大量精力在仿真和強化學(xué)習(xí)上，通過可控環(huán)境進行大規(guī)模訓(xùn)練，再結(jié)合真實數(shù)據(jù)閉環(huán)。這種方式的優(yōu)勢是可以覆蓋大量長尾場景，而不完全依賴真實道路采集。

同時，理想在模型設(shè)計階段就考慮硬件限制，通過軟硬件協(xié)同去優(yōu)化部署效率，這對于大模型落地是非常關(guān)鍵的一步。

整體來看，理想MindVLA-o1是一條更偏長期能力構(gòu)建的路線，強調(diào)模型結(jié)構(gòu)、訓(xùn)練體系和工程閉環(huán)的完整性。

小鵬第二代VLA，更偏產(chǎn)品化和數(shù)據(jù)閉環(huán)

小鵬的第二代VLA更強調(diào)盡快在真實用戶場景中跑起來。它的核心思路是盡量減少規(guī)則依賴，用大模型去直接學(xué)習(xí)駕駛行為，并通過車端數(shù)據(jù)不斷迭代。

圖片源自：小鵬微信公眾號

其一個比較關(guān)鍵的特點是對連續(xù)視頻流的使用。相比傳統(tǒng)只用關(guān)鍵幀或抽象特征，小鵬更強調(diào)時間連續(xù)的信息輸入，這讓模型在處理前車減速、行人橫穿等動態(tài)場景時更穩(wěn)定，決策不會出現(xiàn)明顯跳變。

在感知中小鵬并沒有強調(diào)復(fù)雜的顯式三維重建，而是更依賴模型自身去學(xué)習(xí)空間關(guān)系。這種做法的好處是結(jié)構(gòu)更簡單，端到端程度更高，但代價是對數(shù)據(jù)規(guī)模和模型能力依賴更強。

小鵬第二代VLA另一個明顯特征是“分層產(chǎn)品策略”（含三個版本）。高算力平臺承載完整能力，再通過蒸餾壓縮到中低算力車型。這其實是一個典型的工程折中，其既保證了技術(shù)上限，又能快速規(guī)模化落地。

從體驗指標(biāo)來看，小鵬更關(guān)注接管次數(shù)、重剎等用戶感知明顯的指標(biāo)。這說明它的優(yōu)化目標(biāo)更偏“駕駛是否自然、是否讓人放心”，而不是單一的技術(shù)指標(biāo)。

此外，小鵬還強調(diào)“軟硬結(jié)合”，通過自研的圖靈AI芯片，他們把硬件的有效算力發(fā)揮到了極致。在小鵬的架構(gòu)中，模型不再是一個孤立的算法，而是與芯片指令集、AI編譯器深度綁定的整體。這種設(shè)計讓模型能以極高的頻率去吞吐視頻流數(shù)據(jù)，確保了在復(fù)雜路況下的實時響應(yīng)速度。

整體來看，這是一條以真實數(shù)據(jù)驅(qū)動為核心、強調(diào)快速迭代和規(guī)模落地的路線。小鵬的技術(shù)邏輯其實也非常清晰，既然物理世界的數(shù)據(jù)量巨大且連續(xù)，那就通過最強悍的算力底座和最高效的模型架構(gòu)，直接去消化這些海量信息。

智駕最前沿觀點？

對比這兩家的方案，智駕最前沿以為它們在解決自動駕駛上限問題時選擇了不同的發(fā)力點。理想試圖通過構(gòu)建完美的物理模型和模擬器，讓車學(xué)會如何像人一樣去思考物理定律，從而在未知的環(huán)境中找到答案。它的優(yōu)勢在于它對場景的還原度和對未來的預(yù)測精度，這讓它的車在面對復(fù)雜路口和人車交互時，表現(xiàn)得更加冷靜且符合邏輯。

而小鵬則更看重系統(tǒng)的爆發(fā)力和執(zhí)行效率。其強調(diào)大模型帶來的能力提升必須建立在高效的算力流轉(zhuǎn)基礎(chǔ)之上，所以他們把大量的精力花在了如何讓大模型在有限的端側(cè)設(shè)備上跑得更順暢、吞吐量更大。

如果說理想是在提升車的“智商”，那么小鵬就是在通過重構(gòu)身體結(jié)構(gòu)（芯片與編譯器）來釋放大腦的潛力。

從這兩家發(fā)布的技術(shù)中，我們也可以看到一個清晰的趨勢，自動駕駛正在加速向具身智能演進。無論是理想的“數(shù)字大腦”類比，還是小鵬對“物理AI”基座的重構(gòu)，其實都在表達同一個觀點，那就是車只是AI介入物理世界的第一個載體。

未來的核心競爭力，不再是某一個功能可以做到什么程度，而是誰能構(gòu)建出一套通用性最強、自進化速度最快的底層架構(gòu)。

在我看來，目前的難點其實在于端側(cè)部署的效率紅線。即便模型再聰明，如果在車端運行時的延遲過高，一切都是空談。因此，小鵬這種從底層芯片開始重構(gòu)的路徑，在長遠來看具有極強的技術(shù)護城河。而理想通過世界模型實現(xiàn)的閉環(huán)強化學(xué)習(xí)，則在數(shù)據(jù)獲取成本和模型進化效率上找到了平衡。

未來這兩條路線可能會殊途同歸，即在擁有強大硬件底座的基礎(chǔ)上，通過世界模型進行大規(guī)模的自我進化。

-- END --

原文標(biāo)題 : 小鵬和理想均押注VLA，兩者技術(shù)各有啥特色？