訂閱
糾錯
加入自媒體

OpenClaw,正在重寫人形機(jī)器人的競爭邏輯?

OpenClaw有沒有顛覆打工人的工作方式不知道,但具身智能好像快要被顛覆了。

最近,最近網(wǎng)上流傳許多這樣的視頻,一些不滿足“賽博養(yǎng)蝦”的網(wǎng)友,給OpenClaw接上攝像頭和機(jī)械臂。這一接不要緊,接入之后大家發(fā)現(xiàn),原來OpenClaw不僅能在電腦上干活,在現(xiàn)實(shí)中同樣也是干活的一把好手。

比如有網(wǎng)友給OpenClaw配上了電腦,機(jī)械臂和攝像頭,他們沒有為這個任務(wù)重新寫一套程序,也沒有單獨(dú)訓(xùn)練模型,只是對OpenClaw說:“把這些汽車零件分類。”

OpenClaw就完成了這些零件分揀。

這件事情對具身智能的沖擊有多大呢?

這么說吧,就在不到一年前,這些能力在人形機(jī)器人公司都還是值得專門召開一場發(fā)布會,花費(fèi)上百萬美元在全世界進(jìn)行吆喝的。

但現(xiàn)在,同樣的能力,卻被OpenClaw輕易實(shí)現(xiàn)了,甚至它都不是為具身智能專門準(zhǔn)備的工具。

所以這件事情,怎么聽都有些荒誕。

那么,OpenClaw到底給人形機(jī)器人帶來了什么?在OpenClaw這么強(qiáng)的情況下,專門的具身大模型還有意義嗎?機(jī)器人公司之前的工作有沒有白費(fèi)?為什么機(jī)器人公司辛苦好幾年的工作,OpenClaw能輕易做到?

以及潮水退去之后,又有誰在裸泳?

當(dāng)“養(yǎng)蝦”養(yǎng)到機(jī)器人身上

我仍然記得,大概是去年(2025年)4月初,國內(nèi)一家頭部的人形機(jī)器人公司在北京鄭重地舉辦了一場發(fā)布會,內(nèi)容就是人形機(jī)器人開發(fā)平臺。

當(dāng)時,這個平臺的核心亮點(diǎn)就是:僅憑語音指令,就能在工業(yè)場景中完成散亂零件的分揀,動作流暢、錯誤率低。

怎么樣,這個描述是不是很熟悉,它和今天OpenClaw能做到的事情幾乎一模一樣。

區(qū)別只是在于,這家公司發(fā)布的這個平臺是專門針對機(jī)器人的,它拆分了數(shù)十個場景,訓(xùn)練Agent,然后通過行為路徑規(guī)劃串聯(lián)在一起,這里面包含了大量的工作。

當(dāng)時,這個公司給這個平臺的宣傳口號是:人形機(jī)器人從表演走向干活、從實(shí)驗(yàn)室走進(jìn)工廠最重要的一塊拼圖。而現(xiàn)在,OpenClaw似乎也輕易實(shí)現(xiàn)了類似的能力,但顯然,OpenClaw沒有經(jīng)歷過這些。

這就像什么呢?就像你和朋友一起去爬山,你精心準(zhǔn)備、提前出發(fā),花費(fèi)大量時間,終于氣喘吁吁地來到山頂時,你卻發(fā)現(xiàn),你的朋友坐著直升機(jī),已經(jīng)在這里等你多時了。

具體來看,OpenClaw還在更多的場景中都展現(xiàn)出了強(qiáng)大的泛化能力、決策和自我進(jìn)化的能力。

比如在一個實(shí)驗(yàn)里,還有一段更生活化的測試。工作人員對機(jī)械臂說:“今天是元宵節(jié),給我做點(diǎn)甜米酒湯圓。”

機(jī)械臂先停頓思考任務(wù),隨后開始執(zhí)行:把湯倒進(jìn)鍋里,把湯圓放進(jìn)去,等待水煮開。

中途工作人員還問:“能不能加點(diǎn)糖?”

機(jī)械臂反問:“黃糖還是桂花糖?”

得到“黃糖”的回答后,它把糖倒進(jìn)了鍋里。

此外還有各種各樣的實(shí)驗(yàn),比如有開發(fā)者把OpenClaw接入工業(yè)機(jī)械臂,讓它根據(jù)自然語言指令完成抓取或搬運(yùn)任務(wù),系統(tǒng)甚至?xí)詣由煽刂茩C(jī)械臂的Python腳本。

除了機(jī)械臂,四足機(jī)器人也很快出現(xiàn)在各種“養(yǎng)蝦”實(shí)驗(yàn)里。

在Reddit和X上流傳的一些視頻中,有開發(fā)者把OpenClaw接入機(jī)器狗,讓它在環(huán)境中自主巡邏。

過去,這類機(jī)器人通常需要遙控操作,或者按照提前設(shè)計好的路線行動。但在這些實(shí)驗(yàn)中,沒有操控,也沒有提前規(guī)劃的路線,機(jī)器狗根據(jù)攝像頭看到的環(huán)境,自己判斷、自己規(guī)劃,比如繞開障礙物、或者在遇到新情況時重新規(guī)劃路徑。

而當(dāng)這些實(shí)驗(yàn)開始出現(xiàn)在人形機(jī)器人身上時,事情就變得更有意思了。

比如在一個開源社區(qū)中,就有人發(fā)布了一套適用于OpenClaw的Unitree-robot技能。有了這個集成,開發(fā)者可以直接通過即時通訊軟件控制宇樹機(jī)器人,比如G1,甚至包括更大的H1,以及四足機(jī)器人GO1和GO2。

整個過程比想象中簡單得多。開發(fā)者不需要打開復(fù)雜的圖形界面,也不用手動調(diào)用SDK,只要在聊天窗口里發(fā)一句話:

“前進(jìn)一米。”

“左轉(zhuǎn)45度。”

機(jī)器人就會執(zhí)行對應(yīng)的動作。

這種控制甚至是雙向的。OpenClaw可以從機(jī)器人搭載的立體相機(jī)中獲取環(huán)境圖像,再把截圖直接發(fā)回聊天窗口,讓開發(fā)者隨時查看現(xiàn)場。如果再接入路徑規(guī)劃模塊,系統(tǒng)還可以自動規(guī)劃路線、避開障礙物。

同樣,整個過程沒有預(yù)設(shè)腳本,也沒有提前規(guī)劃好的動作路徑。

開發(fā)者只是給出一個目標(biāo),剩下的事情就都交給了AI,它自己判斷、自己規(guī)劃。

一只小龍蝦,能掀翻人形機(jī)器人嗎?

我們從各種的演示視頻中,看到了OpenClaw結(jié)合其他大模型表現(xiàn)出來的驚人能力。

放以前,足以成為許多人形機(jī)器人公司最驕傲的成果,放到現(xiàn)在也變得平平無奇。

因此,這不得不讓人產(chǎn)生一個疑問:機(jī)器人行業(yè)花了這么多年,采集數(shù)據(jù)、訓(xùn)練模型、開發(fā)系統(tǒng)才實(shí)現(xiàn)的能力,還有價值嗎?

答案當(dāng)然是否定的。

這話得從頭說起,一個機(jī)器人,除了本體之外,決策系統(tǒng)大致可以被拆為四層,從上往下分別是:

決策層(大腦):理解目標(biāo)與任務(wù)拆解;感知/表征層:識別環(huán)境、目標(biāo)與空間狀態(tài);行為組織層:把任務(wù)拆成技能和動作序列;控制層(小腦):軌跡、伺服、避障、安全執(zhí)行。

在這個框架下,OpenClaw 主要負(fù)責(zé)前面幾層能力的調(diào)用、編排和銜接。至于機(jī)器人最后怎么動、動作能不能穩(wěn)定落地,仍然依賴底層控制系統(tǒng)、運(yùn)動學(xué)求解和執(zhí)行鏈路。

因此,OpenClaw 并不是讓機(jī)器人突然學(xué)會了運(yùn)動,它反而更像是一個上層調(diào)度系統(tǒng),把人的指令翻譯成一連串可調(diào)用的能力。

這里真正值得注意的亮點(diǎn)其實(shí)有兩個。

第一個,是OpenClaw改變了機(jī)器人獲得這些能力的方式。

過去,很多能力并不是做不到,而是往往要為單一任務(wù)投入大量數(shù)據(jù)采集、專門訓(xùn)練和復(fù)雜的規(guī)則工程。

而現(xiàn)在,OpenClaw可以直接借助已經(jīng)成熟的多模態(tài)模型、工具系統(tǒng)和模塊化執(zhí)行鏈路,把許多原本需要單獨(dú)開發(fā)、單獨(dú)訓(xùn)練的能力,變成了可以直接調(diào)用,和快速組合的能力。

結(jié)果就是,同樣一個抓取、查找或巡檢任務(wù),開發(fā)效率更高,試錯周期更短,整體成本也更低。

第二就是,OpenClaw讓機(jī)器人開始具備一種過去很少真正建立起來的能力:對現(xiàn)實(shí)世界的持續(xù)記憶。

傳統(tǒng)機(jī)器人更多是在“當(dāng)下”工作。它看到什么,就對什么做出反應(yīng);任務(wù)結(jié)束后,對環(huán)境的理解也大多停留在那一刻。很多系統(tǒng)當(dāng)然也能做地圖、定位和任務(wù)狀態(tài)保存,但它們通常并不會把“地點(diǎn)、物體、事件和時間”持續(xù)組織成一個可隨時調(diào)用的統(tǒng)一記憶結(jié)構(gòu)。

而現(xiàn)在,OpenClaw開始嘗試把機(jī)器人感知到的重要對象、地點(diǎn)、事件和時間組織成可檢索的時空語義記憶。

這意味著,機(jī)器人不再只是執(zhí)行命令,而是在持續(xù)積累上下文。

一個人什么時候進(jìn)入房間,一個物體被放在了哪里,一段行為發(fā)生在什么時間點(diǎn),這些都可能被納入后續(xù)搜索、判斷和行動的依據(jù)。

當(dāng)然,這并不等于它已經(jīng)擁有了像人一樣完整的世界理解,但至少說明,它開始具備一種面向現(xiàn)實(shí)世界的結(jié)構(gòu)化記憶能力。

這件事的意義在于,機(jī)器人能力的邊界正在從“完成一次任務(wù)”往“持續(xù)理解一個環(huán)境”延伸。(在同一環(huán)境或相似環(huán)境中,持續(xù)上下文會提升任務(wù)連續(xù)性和局部穩(wěn)定性,但這并不等于系統(tǒng)已經(jīng)獲得了廣義泛化能力。)

當(dāng)然,OpenClaw能做到這些,并不是憑空產(chǎn)生的,其背后支持的有兩個重要的原因。

第一個原因是,最近幾年機(jī)器人本身的底層架構(gòu)開始發(fā)生了變化。

過去,很多機(jī)器人系統(tǒng)更像一個個封閉的煙囪:感知是一套,規(guī)劃是一套,控制又是一套,彼此連接復(fù)雜,開發(fā)門檻很高。很多能力雖然已經(jīng)存在,但很難被靈活調(diào)用。

而現(xiàn)在,機(jī)器人系統(tǒng)正在變得越來越模塊化、標(biāo)準(zhǔn)化。相機(jī)、機(jī)械臂、抓取模塊、路徑規(guī)劃、底層控制接口,都在逐步變成可插拔、可組合的能力單元。

OpenClaw之所以看起來很強(qiáng),不是因?yàn)樗鼞{空創(chuàng)造了底層機(jī)器人能力,而是因?yàn)樗梢哉驹谝粋已經(jīng)逐漸標(biāo)準(zhǔn)化的執(zhí)行棧之上,把這些能力重新組織起來。

第二個原因,是多模態(tài)大模型正在快速整合原來分散的能力。

過去,人形機(jī)器人如果要完成一個任務(wù),往往要單獨(dú)解決很多問題:文字理解、語音識別、圖像識別、視頻理解、目標(biāo)檢測、空間判斷、任務(wù)拆解,常常要靠不同模塊分別完成。

但現(xiàn)在,多模態(tài)大模型已經(jīng)能同時處理文字、圖像、語音、視頻等不同信息,并把這些信息放進(jìn)同一個上下文里統(tǒng)一理解。這意味著,機(jī)器人過去那些需要單獨(dú)訓(xùn)練、單獨(dú)接入的感知和理解能力,正在被更通用的基礎(chǔ)模型逐步吸收。

這導(dǎo)致機(jī)器人上層智能的開發(fā)門檻被明顯拉低了。而這就是OpenClaw的意義,它不是重新發(fā)明這些能力,而是把這些已經(jīng)變強(qiáng)的通用能力,更高效地接進(jìn)了機(jī)器人系統(tǒng)。

具身大模型,還有沒有意義?

說到這里,就自然會延伸出一個更關(guān)鍵的問題:既然基礎(chǔ)模型已經(jīng)越來越強(qiáng),單獨(dú)做一個具身智能大模型,還有意義嗎?

畢竟在此之前,很多人形機(jī)器人公司都曾高調(diào)宣布自研具身大模型,并把它視為公司最重要的戰(zhàn)略核心,仿佛誰掌握了具身模型,誰就掌握了機(jī)器人的未來。

可現(xiàn)在看起來,通用基礎(chǔ)模型正在迅速補(bǔ)齊理解、感知和任務(wù)編排能力,原來機(jī)器人公司花了很多年構(gòu)建的部分上層能力,正在被更大的基礎(chǔ)模型體系快速通用化。

答案是:有,而且依然重要。

原因在于,基礎(chǔ)模型變強(qiáng),主要改變的是機(jī)器人“理解世界”的能力;而具身模型真正決定的,是機(jī)器人“如何在物理世界里把動作做出來”的能力。

理解一句話、識別一個目標(biāo)、拆解一個任務(wù),這些事情確實(shí)越來越像通用能力了。但機(jī)器人最難的部分,從來不只是聽懂、看懂,而是進(jìn)入現(xiàn)實(shí)世界以后,動作是否真的成立,抓取角度對不對,軌跡穩(wěn)不穩(wěn),接觸力會不會失控,目標(biāo)被遮擋后能不能繼續(xù),抓取失敗后能不能恢復(fù),換一個場景、換一個物體、換一臺機(jī)器之后還能不能成功。

這些問題不是只靠更強(qiáng)的“理解能力”就能自動解決的。

具身智能大模型的價值,不在于把所有事情都包下來,而在于把大量和動作、操作、交互相關(guān)的經(jīng)驗(yàn)沉淀下來,讓機(jī)器人不僅能做出一個demo,更能形成穩(wěn)定、可復(fù)用、可泛化的能力。

換句話說,通用模型正在吃掉的是“理解層”;而具身模型守住的,仍然是“動作層”和“物理落地層”。

所以,具身模型不是沒有意義了,而是它的角色正在變化:過去它像是想包辦一切的“全棧大腦”,現(xiàn)在它更像是在整個機(jī)器人系統(tǒng)里,負(fù)責(zé)決定能力上限的關(guān)鍵一層。

最后,讓我們回到最開始的問題,OpenClaw到底給人形機(jī)器人行業(yè)帶來了什么?

答案是,它讓整個行業(yè)更早接受了一個事實(shí):人形機(jī)器人的上層任務(wù)智能,正在快速通用化。

過去,很多公司最稀缺的能力,是把理解、感知、規(guī)劃和調(diào)用整合成一個能工作的系統(tǒng);但現(xiàn)在,隨著多模態(tài)基礎(chǔ)模型和Agent框架成熟,這部分門檻正在迅速下降。

做一個像樣的demo,會越來越容易,這也意味著,機(jī)器人行業(yè)正在進(jìn)入深水區(qū)。

未來比拼的,不再是誰先做出一個會“聽懂指令”的演示,而是誰能把動作做穩(wěn),把成功率做高,把系統(tǒng)做成低延遲、可復(fù)現(xiàn)、可量產(chǎn)、可安全部署的產(chǎn)品。真正決定勝負(fù)的,將是更底層的專業(yè)能力:控制、數(shù)據(jù)、魯棒性、工程化和量產(chǎn)能力。

換句話說,OpenClaw降低了做demo的門檻,卻沒有降低做成產(chǎn)品的難度。

而這恰恰是它對行業(yè)最大的沖擊:那些還浮在表面、靠手搓demo講故事的公司,其競爭力會迅速被擠壓;潮水退去之后,才知道誰在裸泳。

       原文標(biāo)題 : OpenClaw,正在重寫人形機(jī)器人的競爭邏輯?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號