訂閱
糾錯
加入自媒體

機器人行業(yè)臨界點,王興興聊具身智能的“ChatGPT時刻”

芝能科技出品

當(dāng)物理世界開始“閱讀”邏輯,英偉達(dá)GTC大會會場卻彌漫著一種緊張而興奮的氣息。

過去幾年,AI的熱潮主要停留在數(shù)字世界:文本、圖像、模型推理,但今年的焦點已轉(zhuǎn)向具身智能(Embodied AI)。

宇樹科技創(chuàng)始人王興興的《如何邁過具身智能的ChatGPT時刻》,回答一個困擾機器人學(xué)界半個世紀(jì)的問題:為什么讓機器寫詩如此輕松,而讓它像三歲孩子一樣穩(wěn)穩(wěn)倒一杯水卻極難?

ChatGPT的爆發(fā)讓數(shù)字世界迎來了邏輯涌現(xiàn),而物理世界正屏息以待它的“破繭時刻”。

01

重塑邊界:

什么是真正的“ChatGPT時刻”

過去十年,機器人行業(yè)一直停留在“提線木偶”階段。

無論是工廠里揮舞的機械臂,還是餐廳里滑行的送餐機器人,它們本質(zhì)上都是規(guī)則的奴隸:程序員寫下if-else指令,定義在A點做什么,在B點避開什么。

王興興稱,這種“結(jié)構(gòu)化環(huán)境下的優(yōu)異表現(xiàn)”,只是偽智能。

真正的具身智能,需要泛化能力:當(dāng)你把機器人放進(jìn)一個它從未見過的廚房,它應(yīng)像初入職場的學(xué)徒,通過視覺掃描環(huán)境,識別洗手池、抹布和杯子,并根據(jù)一句“幫我洗個杯子”,自主規(guī)劃出抓取、沖洗、控干的動作序列。

為了量化這個概念,他提出了“80-80法則”:在80%的陌生環(huán)境中,僅憑語言指令完成約80%的任務(wù)。

◎ 環(huán)境陌生度:機器人的感知編碼能力必須足夠強大,即便光線昏暗、雜物堆積,或地形復(fù)雜,它仍能準(zhǔn)確定位目標(biāo)。

◎ 任務(wù)完成率:機器人必須在沒有預(yù)演的情況下,處理諸如“杯子滑落”“水流濺射”等突發(fā)動態(tài)問題。

只有跨過這條線,機器人才能從“昂貴的工業(yè)擺件”變成社會基礎(chǔ)設(shè)施。至于時間表,這個“ChatGPT時刻”最快1-2年內(nèi)到來,慢則2-3年。

數(shù)字世界可以通過算力暴力突破,但物理世界面臨重力、摩擦和不可預(yù)測的突發(fā)狀況——這里的挑戰(zhàn)不僅是比特(Bit)的碰撞,更是原子(Atom)的較量。

02

核心技術(shù)挑戰(zhàn):

三大深水區(qū)

具身智能之所以遲遲未至,是因為它必須解決三個底層技術(shù)難題,王興興形象地稱之為機器人的“小腦發(fā)育不足”“閱歷貧乏”和“記憶斷層”。

● 動作表達(dá)的高維陷阱

 抓取一個生雞蛋的動作,看似簡單,但其實涉及數(shù)百個肌肉纖維與神經(jīng)末梢的高頻協(xié)作。對于人形機器人而言,這意味著幾十個關(guān)節(jié)自由度(DoF)的毫秒級同步。

目前大多數(shù)機器人只能完成離散動作,如“走過去”“伸手”“抓取”,但現(xiàn)實中動作應(yīng)像絲般順滑、連續(xù)組合。瞬態(tài)控制尤為關(guān)鍵:濕滑地面行走時的平衡調(diào)整,要求模型具備極高推理速度和動作編碼解碼能力。

● 數(shù)據(jù)的貧礦難題

與大語言模型不同,機器人無法吞下整個互聯(lián)網(wǎng)來“訓(xùn)練”。王興興提出“混合喂養(yǎng)”策略:

◎ 互聯(lián)網(wǎng)視頻為主食:通過觀看人類操作視頻,機器人建立對物理世界的初步認(rèn)知。

◎ 仿真合成數(shù)據(jù)為點心:在數(shù)字孿生世界中進(jìn)行億次跌倒、抓取嘗試。

◎ 真機微調(diào)為靈魂:利用少量高質(zhì)量真實數(shù)據(jù)對模型進(jìn)行微調(diào)和對齊。

這里的核心不是數(shù)據(jù)量,而是數(shù)據(jù)利用效率。

● 強化學(xué)習(xí)的規(guī)模效應(yīng)迷思

強化學(xué)習(xí)在AI領(lǐng)域被視為通往AGI的鑰匙,但在機器人上存在“閱后即焚”的問題:訓(xùn)練一次開門可能需要大量數(shù)據(jù),但這些經(jīng)驗往往無法復(fù)用。

王興興強調(diào),需要建立可積累的策略庫,讓新任務(wù)學(xué)習(xí)可以借用舊任務(wù)邏輯碎片——就像學(xué)會騎自行車的平衡感會遷移到騎摩托車。

03

硬件與應(yīng)用進(jìn)化:

從實驗室到社會基礎(chǔ)設(shè)施

硬件演進(jìn)是具身智能落地的基礎(chǔ)。宇樹科技的產(chǎn)品呈現(xiàn)出清晰階梯:從小型研究平臺到工業(yè)作業(yè),再到復(fù)雜環(huán)境生存能力。

● G1:人形機器人的極客先鋒

 身高1.3米的G1緊湊靈巧,不追求威猛,而是驗證在有限體積內(nèi)如何塞進(jìn)足夠自由度與傳感器。它成為全球開發(fā)者研究動作算法的標(biāo)準(zhǔn)化平臺。

● H1:工業(yè)肌肉勞力

 身高1.8米的H1關(guān)注生產(chǎn)力和安全。在中大型作業(yè)場景,它需與人保持2-3米安全距離,獨立完成作業(yè)島任務(wù)。這代表未來工廠機器人邏輯的重構(gòu):不再是鄰座幫手,而是獨立數(shù)字工匠。

● As2:輕量化巡邏者

 四足機器人As2用于復(fù)雜地形巡邏,高防護、高負(fù)載、長續(xù)航。它為AI算法積累真實室外環(huán)境數(shù)據(jù),是“ChatGPT時刻”到來前的特種兵。

AI端的發(fā)展也在硬件上實現(xiàn)落地:世界模型和VLA(視覺-語言-動作)模型讓機器人能夠在仿真與真實環(huán)境中進(jìn)行“白日夢”,預(yù)測動作結(jié)果和環(huán)境反饋,逐步提升生產(chǎn)場景勝率。

全球協(xié)同與開源策略,讓知識碎片和算法積累不再局限于單個實驗室,而是形成可遷移的產(chǎn)業(yè)級智能生態(tài)。

小結(jié)

具身智能的未來是社會生產(chǎn)力和生活方式的重塑。王興興認(rèn)為,當(dāng)黎明破曉,機器人將成為“鐵同事”,與人類在物理世界共處,而我們需要理解、規(guī)劃并善用這場技術(shù)變革。

       原文標(biāo)題 : 機器人行業(yè)臨界點:王興興聊具身智能的“ChatGPT時刻”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號