123,123,123

機器人行業(yè)臨界點，王興興聊具身智能的“ChatGPT時刻”

2026-03-18 13:45

芝能科技

關(guān)注

芝能科技出品

當(dāng)物理世界開始“閱讀”邏輯，英偉達(dá)GTC大會會場卻彌漫著一種緊張而興奮的氣息。

過去幾年，AI的熱潮主要停留在數(shù)字世界：文本、圖像、模型推理，但今年的焦點已轉(zhuǎn)向具身智能（Embodied AI）。

宇樹科技創(chuàng)始人王興興的《如何邁過具身智能的ChatGPT時刻》，回答一個困擾機器人學(xué)界半個世紀(jì)的問題：為什么讓機器寫詩如此輕松，而讓它像三歲孩子一樣穩(wěn)穩(wěn)倒一杯水卻極難？

ChatGPT的爆發(fā)讓數(shù)字世界迎來了邏輯涌現(xiàn)，而物理世界正屏息以待它的“破繭時刻”。

重塑邊界：

什么是真正的“ChatGPT時刻”

過去十年，機器人行業(yè)一直停留在“提線木偶”階段。

無論是工廠里揮舞的機械臂，還是餐廳里滑行的送餐機器人，它們本質(zhì)上都是規(guī)則的奴隸：程序員寫下if-else指令，定義在A點做什么，在B點避開什么。

王興興稱，這種“結(jié)構(gòu)化環(huán)境下的優(yōu)異表現(xiàn)”，只是偽智能。

真正的具身智能，需要泛化能力：當(dāng)你把機器人放進(jìn)一個它從未見過的廚房，它應(yīng)像初入職場的學(xué)徒，通過視覺掃描環(huán)境，識別洗手池、抹布和杯子，并根據(jù)一句“幫我洗個杯子”，自主規(guī)劃出抓取、沖洗、控干的動作序列。

為了量化這個概念，他提出了“80-80法則”：在80%的陌生環(huán)境中，僅憑語言指令完成約80%的任務(wù)。

◎ 環(huán)境陌生度：機器人的感知編碼能力必須足夠強大，即便光線昏暗、雜物堆積，或地形復(fù)雜，它仍能準(zhǔn)確定位目標(biāo)。

◎ 任務(wù)完成率：機器人必須在沒有預(yù)演的情況下，處理諸如“杯子滑落”“水流濺射”等突發(fā)動態(tài)問題。

只有跨過這條線，機器人才能從“昂貴的工業(yè)擺件”變成社會基礎(chǔ)設(shè)施。至于時間表，這個“ChatGPT時刻”最快1-2年內(nèi)到來，慢則2-3年。

數(shù)字世界可以通過算力暴力突破，但物理世界面臨重力、摩擦和不可預(yù)測的突發(fā)狀況——這里的挑戰(zhàn)不僅是比特（Bit）的碰撞，更是原子（Atom）的較量。

核心技術(shù)挑戰(zhàn)：

三大深水區(qū)

具身智能之所以遲遲未至，是因為它必須解決三個底層技術(shù)難題，王興興形象地稱之為機器人的“小腦發(fā)育不足”“閱歷貧乏”和“記憶斷層”。

● 動作表達(dá)的高維陷阱

抓取一個生雞蛋的動作，看似簡單，但其實涉及數(shù)百個肌肉纖維與神經(jīng)末梢的高頻協(xié)作。對于人形機器人而言，這意味著幾十個關(guān)節(jié)自由度（DoF）的毫秒級同步。

目前大多數(shù)機器人只能完成離散動作，如“走過去”“伸手”“抓取”，但現(xiàn)實中動作應(yīng)像絲般順滑、連續(xù)組合。瞬態(tài)控制尤為關(guān)鍵：濕滑地面行走時的平衡調(diào)整，要求模型具備極高推理速度和動作編碼解碼能力。

● 數(shù)據(jù)的貧礦難題

與大語言模型不同，機器人無法吞下整個互聯(lián)網(wǎng)來“訓(xùn)練”。王興興提出“混合喂養(yǎng)”策略：

◎ 互聯(lián)網(wǎng)視頻為主食：通過觀看人類操作視頻，機器人建立對物理世界的初步認(rèn)知。

◎ 仿真合成數(shù)據(jù)為點心：在數(shù)字孿生世界中進(jìn)行億次跌倒、抓取嘗試。

◎ 真機微調(diào)為靈魂：利用少量高質(zhì)量真實數(shù)據(jù)對模型進(jìn)行微調(diào)和對齊。

這里的核心不是數(shù)據(jù)量，而是數(shù)據(jù)利用效率。

● 強化學(xué)習(xí)的規(guī)模效應(yīng)迷思

強化學(xué)習(xí)在AI領(lǐng)域被視為通往AGI的鑰匙，但在機器人上存在“閱后即焚”的問題：訓(xùn)練一次開門可能需要大量數(shù)據(jù)，但這些經(jīng)驗往往無法復(fù)用。

王興興強調(diào)，需要建立可積累的策略庫，讓新任務(wù)學(xué)習(xí)可以借用舊任務(wù)邏輯碎片——就像學(xué)會騎自行車的平衡感會遷移到騎摩托車。

硬件與應(yīng)用進(jìn)化：

從實驗室到社會基礎(chǔ)設(shè)施

硬件演進(jìn)是具身智能落地的基礎(chǔ)。宇樹科技的產(chǎn)品呈現(xiàn)出清晰階梯：從小型研究平臺到工業(yè)作業(yè)，再到復(fù)雜環(huán)境生存能力。

● G1：人形機器人的極客先鋒

身高1.3米的G1緊湊靈巧，不追求威猛，而是驗證在有限體積內(nèi)如何塞進(jìn)足夠自由度與傳感器。它成為全球開發(fā)者研究動作算法的標(biāo)準(zhǔn)化平臺。

● H1：工業(yè)肌肉勞力

身高1.8米的H1關(guān)注生產(chǎn)力和安全。在中大型作業(yè)場景，它需與人保持2-3米安全距離，獨立完成作業(yè)島任務(wù)。這代表未來工廠機器人邏輯的重構(gòu)：不再是鄰座幫手，而是獨立數(shù)字工匠。

● As2：輕量化巡邏者

四足機器人As2用于復(fù)雜地形巡邏，高防護、高負(fù)載、長續(xù)航。它為AI算法積累真實室外環(huán)境數(shù)據(jù)，是“ChatGPT時刻”到來前的特種兵。

AI端的發(fā)展也在硬件上實現(xiàn)落地：世界模型和VLA（視覺-語言-動作）模型讓機器人能夠在仿真與真實環(huán)境中進(jìn)行“白日夢”，預(yù)測動作結(jié)果和環(huán)境反饋，逐步提升生產(chǎn)場景勝率。

全球協(xié)同與開源策略，讓知識碎片和算法積累不再局限于單個實驗室，而是形成可遷移的產(chǎn)業(yè)級智能生態(tài)。

小結(jié)

具身智能的未來是社會生產(chǎn)力和生活方式的重塑。王興興認(rèn)為，當(dāng)黎明破曉，機器人將成為“鐵同事”，與人類在物理世界共處，而我們需要理解、規(guī)劃并善用這場技術(shù)變革。

原文標(biāo)題 : 機器人行業(yè)臨界點：王興興聊具身智能的“ChatGPT時刻”

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞