123,123,123

不只有理想小鵬，元戎啟行VLA輔助駕駛，也來(lái)了

2025-08-27 10:14

作者 | 王凌方

編輯 | 邱鍇俊

一輛能對(duì)盲區(qū)風(fēng)險(xiǎn)識(shí)別、讀懂路標(biāo)、與你對(duì)話的汽車(chē)正駛?cè)氍F(xiàn)實(shí)。

2025年8月26日，元戎啟行發(fā)布全新一代輔助駕駛平臺(tái)——DeepRoute IO 2.0，該平臺(tái)搭載自研的VLA（Vision-Language-Action）模型。

VLA模型融合了視覺(jué)感知、自然語(yǔ)言理解和動(dòng)作決策能力，其將大語(yǔ)言模型的推理能力應(yīng)用于智能駕駛領(lǐng)域，增加了空間語(yǔ)義理解，形成了推理能力，提高了應(yīng)對(duì)復(fù)雜路況的能力。

在此次發(fā)布會(huì)上，元戎啟行同步展示VLA模型的4大功能：空間語(yǔ)義理解、異形障礙物識(shí)別、文字類(lèi)引導(dǎo)牌理解、記憶語(yǔ)音控車(chē)，這些功能將根據(jù)實(shí)際部署節(jié)奏逐步釋放。

從元戎啟行此前客戶(hù)來(lái)看，這意味著長(zhǎng)城汽車(chē)、Smart等品牌可能也會(huì)很快迎來(lái)VLA輔助駕駛上車(chē)。

VLA模型的三重突破

在VLA模型出現(xiàn)之前，行業(yè)主流的基于CNN(卷積神經(jīng)網(wǎng)絡(luò))實(shí)現(xiàn)BEV（鳥(niǎo)瞰圖）的端到端系統(tǒng)，長(zhǎng)期存在三大難以突破的瓶頸：盲區(qū)感知受限、缺乏邏輯推理能力、泛化能力不足。

對(duì)此，元戎啟行CEO周光在發(fā)布會(huì)上舉了一個(gè)例子：BEV（鳥(niǎo)瞰視角）架構(gòu)如同玩坦克大戰(zhàn)，墻后的物體看不到就被認(rèn)為不存在，真實(shí)的視角更像CS（游戲《反恐精英》），人類(lèi)司機(jī)能夠通過(guò)空間關(guān)系預(yù)判風(fēng)險(xiǎn)并謹(jǐn)慎通過(guò)，這是CNN系統(tǒng)無(wú)法做到的。

相比CNN的端到端模型，VLA模型主要有以下幾個(gè)突破。

一是，思維鏈推理：算得比人類(lèi)更準(zhǔn)。

VLA模型的核心優(yōu)勢(shì)在于其思維鏈（Chain of Thought, CoT）能力。它能夠進(jìn)行長(zhǎng)時(shí)序因果推理，將離散信息串聯(lián)分析，從而做出更擬人化的決策。

傳統(tǒng)端到端模型駕駛經(jīng)驗(yàn)單一，只能推理幾秒內(nèi)的路況；而VLA支持高級(jí)語(yǔ)義理解和長(zhǎng)時(shí)序推理，擅長(zhǎng)應(yīng)對(duì)復(fù)雜路況。

二是，海量知識(shí)庫(kù)：自帶“駕駛百科全書(shū)”。

通過(guò)互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)蒸餾與訓(xùn)練，VLA模型積累了豐富的常識(shí)知識(shí)。

這種知識(shí)泛化能力是傳統(tǒng)系統(tǒng)無(wú)法企及的。傳統(tǒng)方案需要依賴(lài)地圖數(shù)據(jù)更新，至少需要一周時(shí)間處理新出現(xiàn)的交通標(biāo)識(shí)，而VLA模型可以實(shí)時(shí)理解。

三是，多模態(tài)融合：視覺(jué)+語(yǔ)言+動(dòng)作的協(xié)同。

VLA模型首次實(shí)現(xiàn)了視覺(jué)感知、語(yǔ)言理解和動(dòng)作決策的深度融合。它不僅能“看見(jiàn)”道路，還能“讀懂”路標(biāo)，“理解”指令，并做出合理決策。

這種融合讓系統(tǒng)能夠處理更加復(fù)雜的場(chǎng)景：識(shí)別盲區(qū)風(fēng)險(xiǎn)、理解文字引導(dǎo)牌、支持自然語(yǔ)音交互，能夠更好地適應(yīng)復(fù)雜多變的真實(shí)道路環(huán)境。

四大功能重新定義智能駕駛

發(fā)布會(huì)上，周光詳細(xì)介紹了VLA模型的四大核心功能，這些功能并非單純的技術(shù)展示，而是針對(duì)真實(shí)駕駛中的痛點(diǎn)場(chǎng)景設(shè)計(jì)，將根據(jù)量產(chǎn)節(jié)奏逐步應(yīng)用。

空間語(yǔ)義理解：駕駛“透視眼”

空間語(yǔ)義理解是VLA模型的最大亮點(diǎn)。在公交車(chē)遮擋、復(fù)雜路口、橋洞等視野受限的場(chǎng)景中，VLA能夠感知潛在風(fēng)險(xiǎn)，主動(dòng)對(duì)盲區(qū)進(jìn)行“預(yù)防性預(yù)判”。系統(tǒng)可在風(fēng)險(xiǎn)出現(xiàn)前提前減速、穩(wěn)妥通行，具備高度擬人化的防御性駕駛策略。

異形障礙物識(shí)別：駕駛“百事通”

系統(tǒng)能夠識(shí)別并靈活應(yīng)對(duì)各種非結(jié)構(gòu)化障礙物，不再僅提示“障礙物”，而是具體識(shí)別出物體類(lèi)型，并采取相應(yīng)的避讓策略。

文字類(lèi)引導(dǎo)牌理解：駕駛“翻譯官”

VLA模型能夠準(zhǔn)確解析潮汐車(chē)道、公交專(zhuān)用道等道路文字信息，減少誤判與違章，讓復(fù)雜路況通行如“開(kāi)卷考試”般從容。

記憶語(yǔ)音控車(chē)：個(gè)性化交互體驗(yàn)

系統(tǒng)支持自然語(yǔ)言指令交互，并能夠?qū)W習(xí)用戶(hù)偏好，實(shí)現(xiàn)個(gè)性化駕駛體驗(yàn)。用戶(hù)可通過(guò)語(yǔ)音指令控制車(chē)輛，系統(tǒng)會(huì)優(yōu)先考慮安全，其次才是用戶(hù)指令與原定規(guī)劃。

商業(yè)化落地前景樂(lè)觀

技術(shù)突破的背后，是元戎啟行在商業(yè)化領(lǐng)域的堅(jiān)實(shí)積累。截至2025年8月，元戎啟行已實(shí)現(xiàn)近10萬(wàn)輛搭載城市領(lǐng)航輔助系統(tǒng)的車(chē)型交付，涵蓋SUV、MPV、越野車(chē)等多種品類(lèi)，合作車(chē)型超過(guò)10款，進(jìn)入行業(yè)“10萬(wàn)級(jí)別交付”第一梯隊(duì)。

這些量產(chǎn)成果，為VLA模型的應(yīng)用奠定了基礎(chǔ)，畢竟大模型也需要真實(shí)路況數(shù)據(jù)持續(xù)優(yōu)化，而10萬(wàn)輛車(chē)的行駛數(shù)據(jù)，正是VLA改進(jìn)的重要支撐。

DeepRoute IO 2.0平臺(tái)作為VLA模型的載體，以“多模態(tài)+多芯片+多車(chē)型”為核心設(shè)計(jì)理念，可面向多種主流乘用車(chē)平臺(tái)開(kāi)展定制化部署。

傳感器適配方面，該平臺(tái)可同時(shí)支持激光雷達(dá)和純視覺(jué)方案，用戶(hù)可根據(jù)車(chē)型定位進(jìn)行選擇，高端車(chē)型用激光雷達(dá)提升精度，中端車(chē)型靠純視覺(jué)控制成本。

車(chē)型覆蓋方面，周光認(rèn)為，VLA模型完全可適配15萬(wàn)元以上車(chē)型，10萬(wàn)元級(jí)車(chē)型通過(guò)算力優(yōu)化也有望搭載。

周光透露，2025年元戎已達(dá)成5個(gè)車(chē)型的VLA模型的定點(diǎn)合作。

不過(guò)，VLA模型仍處于發(fā)展階段。周光表示，VLA目前還未完全實(shí)現(xiàn)思維鏈（COT），這是關(guān)鍵差距。長(zhǎng)遠(yuǎn)來(lái)看，語(yǔ)言和推理能力是實(shí)現(xiàn)完全無(wú)人化自動(dòng)駕駛的核心。比如遇到“左轉(zhuǎn)不受燈控”這種臨時(shí)標(biāo)識(shí)，依賴(lài)地圖更新是不夠的，第一次遇到就需實(shí)時(shí)理解。VLA在這條路上任重道遠(yuǎn)，需要更多技術(shù)沉淀。“特斯拉之所以投入十倍算力和參數(shù)，正是因?yàn)镚PT架構(gòu)是明確方向，CNN無(wú)法支撐這種擴(kuò)展。”

除此之外，元戎啟行還有更為宏大的目標(biāo)。根據(jù)其Road AGI 戰(zhàn)略，VLA 模型不僅將應(yīng)用于乘用車(chē)，還將拓展至 Robotaxi 業(yè)務(wù)，從道路場(chǎng)景拓展到小區(qū)、電梯、辦公室等室內(nèi)外環(huán)境，讓機(jī)器人擺脫遙控或巡線依賴(lài)，實(shí)現(xiàn)真正的自主移動(dòng)。