訂閱
糾錯
加入自媒體

“絕影開悟”世界模型 :從輔助駕駛走向具身智能的工程進階

2025-07-28 16:35
芝能科技
關注

芝能科技出品

在WAIC 2025上,商湯絕影推出了升級版的“絕影開悟”世界模型,并展示了其在自動駕駛數(shù)據(jù)生成、仿真訓練及具身智能交互方面的多項能力。

雖然整體展示內容覆蓋面廣,系統(tǒng)集成度較高,但在表象之下,我們更應關注其核心建模能力是否經得起推敲,以及其產品平臺在高階交互和實際落地過程中的適用性與邊界,我們更關心的是從技術角度分析“絕影開悟”在輔助駕駛和具身智能領域的核心機制與潛力。

01 輔助駕駛方法革新:效率與控制力的雙重權衡

“絕影開悟”最大的技術亮點在于它提供了一種相對高效、可控的合成數(shù)據(jù)生成方式,用于緩解當前輔助駕駛領域對真實采集數(shù)據(jù)的重依賴。

通過將大模型能力引入數(shù)據(jù)生成流程,它試圖解決傳統(tǒng)仿真工具中長期存在的幾個問題:缺乏多樣性、場景難以定制、生成效率低。從物理建模角度看,“絕影開悟”展示出對真實駕駛環(huán)境的良好抽象能力。

系統(tǒng)不僅能在視覺維度上逼近真實采集畫面,還通過多模態(tài)控制對場景邏輯關系做出可接受的建模(如動態(tài)交通行為、光照與視角變化的響應)。

以當前的A100 GPU生成速度估算,其效率確實優(yōu)于多數(shù)手動采集方式,尤其在高頻次需求的訓練周期中具有現(xiàn)實價值。

數(shù)據(jù)“真實度”依舊受限于訓練模型的語義深度和物理因果邏輯建構能力。在復雜邊緣場景中,如交通事故、非標道路結構、夜間突發(fā)事件等,是否具備足夠泛化能力仍需通過大規(guī)模實測驗證。

平臺支持提示詞生成與圖像點擊生成的功能雖便于產品化,但也可能造成使用者對“真實可用性”的認知誤差。簡化交互和增強定制性的同時,可能弱化開發(fā)者對底層模擬邏輯準確性的關注。

因此,“絕影開悟”的適用邊界更適合作為算法早期訓練和策略預驗證工具,而非作為替代實車驗證的終極手段。

商湯基于該模型開發(fā)的數(shù)據(jù)集“WorldSim-Drive”,在數(shù)據(jù)量級與標簽種類上的覆蓋相對完備,達到了百萬級片段的規(guī)模,并標明了多視角、光照、交通標識等變量標簽,有助于訓練階段算法的魯棒性提升。

以目前情況來看,它更像是一個適用于快速模型預熱和泛化能力打底的“數(shù)據(jù)引擎”。 

“絕影開悟”在輔助駕駛場景中的價值不在于徹底替代真實測試,而在于構建一套低成本、可控、高覆蓋率的訓練數(shù)據(jù)系統(tǒng),補足現(xiàn)有測試體系中的“長尾場景”缺口。真正的挑戰(zhàn)仍在于模型在未見過的真實復雜交通行為中的泛化能力。

02 邁向具身智能的構型實驗:從環(huán)境建模走向交互邏輯生成

如果說輔助駕駛的數(shù)據(jù)生成屬于靜態(tài)空間與單維交互建模,那么具身智能對世界模型的要求則更加復雜,涉及高頻率的實時交互、因果鏈構建、多視角對齊與物理反饋仿真。

“絕影開悟”試圖從三維空間走向四維時空構建,打造一個具備實時響應能力的4D訓練環(huán)境。其最具技術含量的部分,是將3DGS(即三維高保真重建)與語義建模融合,形成一個支持1km²級別的實時仿真環(huán)境,并且允許策略模型與模擬環(huán)境實時交互。

這種1:1閉環(huán)測試機制,對于強化學習等交互式學習方法來說非常關鍵,它意味著可以在虛擬空間中完成大量策略驗證和安全性評估,減少對真實物理實驗的依賴。

系統(tǒng)可以生成具備第一視角(即感知視角)與第三視角(觀察者視角)的同步數(shù)據(jù),并保持它們的時空一致性。

過去在機器人訓練中,往往只能獲得單一視角數(shù)據(jù),使得訓練模型難以兼顧空間規(guī)劃與動作細節(jié)。

雙視角數(shù)據(jù)不僅提升了訓練反饋的豐富度,也在一定程度上提供了具身智能體“自我評估”的能力。具身智能的復雜性遠非高精度建模與視角對齊即可解決。

在實際工程部署中,問題往往出現(xiàn)在動作決策鏈條的尾部——即如何讓模擬動作在現(xiàn)實硬件上落地。即使世界模型在仿真中生成了可行的策略路徑,也很難保證機器人在真實環(huán)境中執(zhí)行時具備同等的魯棒性與安全性。Sim2Real的問題仍然存在,只是部分被緩解。

商湯提出了構建具身3D資產庫的路徑,涵蓋多種空間、對象與任務(如廚房、辦公桌、機械臂作業(yè)等),為世界模型提供素材支撐。這種資產級的系統(tǒng)組織形式,在構建任務圖譜與動作路徑預測中具有較大優(yōu)勢。

結合高保真數(shù)據(jù)生成與動作軌跡抽象,能構建更通用的交互行為基礎。

當前展示內容仍偏向任務“可生成”與“可預演”,在“策略推理”“動作冗余壓縮”“任務錯誤容忍”等實際工程場景中,尚未顯示足夠系統(tǒng)化的能力。

因此,更合理的看法是,“絕影開悟”為具身智能提供了訓練前期的環(huán)境層支撐,但要構建完整的交互模型體系,還需補足認知層建模與反饋處理的中層橋梁。  

“絕影開悟”在具身智能中的應用展示了從空間建模走向交互反饋的技術意圖,4D空間構建與多視角數(shù)據(jù)生成的能力較具前瞻性,但其作為具身訓練的“全流程解決方案”仍不完整。

未來的發(fā)展關鍵在于構建具備可遷移性與實際推理能力的策略模型層,而不只是環(huán)境層的構建。

小結

在Physical AI的技術熱潮中,“世界模型”這個概念正被不斷擴大與泛化,從工程角度看,其價值仍應回歸到一個根本問題:是否真正幫助智能體“理解”了所處的世界,并能夠以可驗證的方式做出反應。

從認知世界,到在世界中行動,AI真正的挑戰(zhàn)不是生成一個世界,而是理解世界背后的規(guī)則與變量,并在不確定中作出正確決策。這需要的不只是生成力,更是推理力與適應力。

       原文標題 : “絕影開悟”世界模型 :從輔助駕駛走向具身智能的工程進階

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號