訂閱
糾錯
加入自媒體

小鵬和理想均押注VLA,兩者技術(shù)各有啥特色?

隨著高級輔助駕駛功能越發(fā)完善,高速NOA、城市NOA的使用已經(jīng)較為普遍,這其中離不開VLA(視覺-語言-動作)模型的推動。

VLA大模型的出現(xiàn),也標(biāo)志著行業(yè)正式從“感知識別”邁向了“理解決策”。以前的智駕系統(tǒng)更像是一個經(jīng)驗豐富的“反射神經(jīng)”,看到紅燈就停,看到障礙物就繞,但它并不理解為什么要這么做。

VLA模型把人類的常識、邏輯推理能力與駕駛行為直接掛鉤。通過將海量的圖像數(shù)據(jù)與語言理解能力結(jié)合,模型不再只是計算像素點,而是像人類一樣去“觀察”并“理解”物理世界的因果關(guān)系,最后直接輸出方向盤轉(zhuǎn)角、剎車力度等控制指令。這種從輸入到輸出的跨越,讓車具備了處理從未見過的新場景的能力。

簡單理解下VLA模型,其就是讓車輛做到了“看懂世界、理解意圖、做出動作”這三件事。

圖片源自:網(wǎng)絡(luò)

最近理想汽車和小鵬也相繼發(fā)布了最新的VLA模型,讓自動駕駛的技術(shù)競爭進入了一個全新的階段。那這兩家發(fā)布的VLA模型都有哪些特色?都就解決了自動駕駛的哪些問題?今天智駕最前沿就帶大家來聊一聊。

在開始今天的話題前,先申明一下,本次內(nèi)容的素材均源自于理想與小鵬發(fā)布的內(nèi)容,若內(nèi)容出現(xiàn)歧義或存在錯誤,也歡迎大家評論區(qū)補充。

理想MindVLA-o1,在隱空間里推演未來

從理想的MindVLA-o1的介紹中來看,MindVLA-o1偏“體系化設(shè)計”。它不只是一個模型,而是一整套從數(shù)據(jù)、模型到訓(xùn)練和部署的閉環(huán)系統(tǒng)。

圖片源自:理想汽車微信公眾號

理想明確引入了3D建模能力。通過視覺模型結(jié)合激光雷達點云作為幾何提示,讓模型在內(nèi)部形成更穩(wěn)定的空間結(jié)構(gòu)表示。這一點和純視覺路線相比,更強調(diào)“物理一致性”,也更利于處理如遮擋、坡道、非規(guī)則障礙物等復(fù)雜空間關(guān)系。

理想還在MindVLA-o1中引入了預(yù)測式隱世界模型,可以在隱空間中高效模擬未來。簡單理解,就是讓模型不僅可以看當(dāng)前,還能在內(nèi)部模擬未來幾秒的場景變化。對于自動駕駛來說,很多駕駛動作本質(zhì)上就是對未來的預(yù)測,這種能力如果做得好,可以顯著提升決策穩(wěn)定性。

在行為生成部分,理想還采用了VLA-MoE(混合專家模型)+Action Expert(動作專家)、并行解碼(Parallel Decoding)以及Discrete Diffusion(離散擴散)等更結(jié)構(gòu)化的方式。這類設(shè)計的目標(biāo)很明確,就是讓輸出軌跡在時間上更連續(xù),在物理上更合理。

理想還投入大量精力在仿真和強化學(xué)習(xí)上,通過可控環(huán)境進行大規(guī)模訓(xùn)練,再結(jié)合真實數(shù)據(jù)閉環(huán)。這種方式的優(yōu)勢是可以覆蓋大量長尾場景,而不完全依賴真實道路采集。

同時,理想在模型設(shè)計階段就考慮硬件限制,通過軟硬件協(xié)同去優(yōu)化部署效率,這對于大模型落地是非常關(guān)鍵的一步。

整體來看,理想MindVLA-o1是一條更偏長期能力構(gòu)建的路線,強調(diào)模型結(jié)構(gòu)、訓(xùn)練體系和工程閉環(huán)的完整性。

小鵬第二代VLA,更偏產(chǎn)品化和數(shù)據(jù)閉環(huán)

小鵬的第二代VLA更強調(diào)盡快在真實用戶場景中跑起來。它的核心思路是盡量減少規(guī)則依賴,用大模型去直接學(xué)習(xí)駕駛行為,并通過車端數(shù)據(jù)不斷迭代。

圖片源自:小鵬微信公眾號

其一個比較關(guān)鍵的特點是對連續(xù)視頻流的使用。相比傳統(tǒng)只用關(guān)鍵幀或抽象特征,小鵬更強調(diào)時間連續(xù)的信息輸入,這讓模型在處理前車減速、行人橫穿等動態(tài)場景時更穩(wěn)定,決策不會出現(xiàn)明顯跳變。

在感知中小鵬并沒有強調(diào)復(fù)雜的顯式三維重建,而是更依賴模型自身去學(xué)習(xí)空間關(guān)系。這種做法的好處是結(jié)構(gòu)更簡單,端到端程度更高,但代價是對數(shù)據(jù)規(guī)模和模型能力依賴更強。

小鵬第二代VLA另一個明顯特征是“分層產(chǎn)品策略”(含三個版本)。高算力平臺承載完整能力,再通過蒸餾壓縮到中低算力車型。這其實是一個典型的工程折中,其既保證了技術(shù)上限,又能快速規(guī)模化落地。

從體驗指標(biāo)來看,小鵬更關(guān)注接管次數(shù)、重剎等用戶感知明顯的指標(biāo)。這說明它的優(yōu)化目標(biāo)更偏“駕駛是否自然、是否讓人放心”,而不是單一的技術(shù)指標(biāo)。

此外,小鵬還強調(diào)“軟硬結(jié)合”,通過自研的圖靈AI芯片,他們把硬件的有效算力發(fā)揮到了極致。在小鵬的架構(gòu)中,模型不再是一個孤立的算法,而是與芯片指令集、AI編譯器深度綁定的整體。這種設(shè)計讓模型能以極高的頻率去吞吐視頻流數(shù)據(jù),確保了在復(fù)雜路況下的實時響應(yīng)速度。

整體來看,這是一條以真實數(shù)據(jù)驅(qū)動為核心、強調(diào)快速迭代和規(guī)模落地的路線。小鵬的技術(shù)邏輯其實也非常清晰,既然物理世界的數(shù)據(jù)量巨大且連續(xù),那就通過最強悍的算力底座和最高效的模型架構(gòu),直接去消化這些海量信息。

智駕最前沿觀點?

對比這兩家的方案,智駕最前沿以為它們在解決自動駕駛上限問題時選擇了不同的發(fā)力點。理想試圖通過構(gòu)建完美的物理模型和模擬器,讓車學(xué)會如何像人一樣去思考物理定律,從而在未知的環(huán)境中找到答案。它的優(yōu)勢在于它對場景的還原度和對未來的預(yù)測精度,這讓它的車在面對復(fù)雜路口和人車交互時,表現(xiàn)得更加冷靜且符合邏輯。

而小鵬則更看重系統(tǒng)的爆發(fā)力和執(zhí)行效率。其強調(diào)大模型帶來的能力提升必須建立在高效的算力流轉(zhuǎn)基礎(chǔ)之上,所以他們把大量的精力花在了如何讓大模型在有限的端側(cè)設(shè)備上跑得更順暢、吞吐量更大。

如果說理想是在提升車的“智商”,那么小鵬就是在通過重構(gòu)身體結(jié)構(gòu)(芯片與編譯器)來釋放大腦的潛力。

從這兩家發(fā)布的技術(shù)中,我們也可以看到一個清晰的趨勢,自動駕駛正在加速向具身智能演進。無論是理想的“數(shù)字大腦”類比,還是小鵬對“物理AI”基座的重構(gòu),其實都在表達同一個觀點,那就是車只是AI介入物理世界的第一個載體。

未來的核心競爭力,不再是某一個功能可以做到什么程度,而是誰能構(gòu)建出一套通用性最強、自進化速度最快的底層架構(gòu)。

在我看來,目前的難點其實在于端側(cè)部署的效率紅線。即便模型再聰明,如果在車端運行時的延遲過高,一切都是空談。因此,小鵬這種從底層芯片開始重構(gòu)的路徑,在長遠來看具有極強的技術(shù)護城河。而理想通過世界模型實現(xiàn)的閉環(huán)強化學(xué)習(xí),則在數(shù)據(jù)獲取成本和模型進化效率上找到了平衡。

未來這兩條路線可能會殊途同歸,即在擁有強大硬件底座的基礎(chǔ)上,通過世界模型進行大規(guī)模的自我進化。

-- END --

       原文標(biāo)題 : 小鵬和理想均押注VLA,兩者技術(shù)各有啥特色?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號