123,123,123

OpenClaw，正在重寫人形機(jī)器人的競爭邏輯？

2026-03-16 11:55

OpenClaw有沒有顛覆打工人的工作方式不知道，但具身智能好像快要被顛覆了。

最近，最近網(wǎng)上流傳許多這樣的視頻，一些不滿足“賽博養(yǎng)蝦”的網(wǎng)友，給OpenClaw接上攝像頭和機(jī)械臂。這一接不要緊，接入之后大家發(fā)現(xiàn)，原來OpenClaw不僅能在電腦上干活，在現(xiàn)實(shí)中同樣也是干活的一把好手。

比如有網(wǎng)友給OpenClaw配上了電腦，機(jī)械臂和攝像頭，他們沒有為這個任務(wù)重新寫一套程序，也沒有單獨(dú)訓(xùn)練模型，只是對OpenClaw說：“把這些汽車零件分類。”

OpenClaw就完成了這些零件分揀。

這件事情對具身智能的沖擊有多大呢？

這么說吧，就在不到一年前，這些能力在人形機(jī)器人公司都還是值得專門召開一場發(fā)布會，花費(fèi)上百萬美元在全世界進(jìn)行吆喝的。

但現(xiàn)在，同樣的能力，卻被OpenClaw輕易實(shí)現(xiàn)了，甚至它都不是為具身智能專門準(zhǔn)備的工具。

所以這件事情，怎么聽都有些荒誕。

那么，OpenClaw到底給人形機(jī)器人帶來了什么？在OpenClaw這么強(qiáng)的情況下，專門的具身大模型還有意義嗎？機(jī)器人公司之前的工作有沒有白費(fèi)？為什么機(jī)器人公司辛苦好幾年的工作，OpenClaw能輕易做到？

以及潮水退去之后，又有誰在裸泳？

當(dāng)“養(yǎng)蝦”養(yǎng)到機(jī)器人身上

我仍然記得，大概是去年（2025年）4月初，國內(nèi)一家頭部的人形機(jī)器人公司在北京鄭重地舉辦了一場發(fā)布會，內(nèi)容就是人形機(jī)器人開發(fā)平臺。

當(dāng)時，這個平臺的核心亮點(diǎn)就是：僅憑語音指令，就能在工業(yè)場景中完成散亂零件的分揀，動作流暢、錯誤率低。

怎么樣，這個描述是不是很熟悉，它和今天OpenClaw能做到的事情幾乎一模一樣。

區(qū)別只是在于，這家公司發(fā)布的這個平臺是專門針對機(jī)器人的，它拆分了數(shù)十個場景，訓(xùn)練Agent，然后通過行為路徑規(guī)劃串聯(lián)在一起，這里面包含了大量的工作。

當(dāng)時，這個公司給這個平臺的宣傳口號是：人形機(jī)器人從表演走向干活、從實(shí)驗(yàn)室走進(jìn)工廠最重要的一塊拼圖。而現(xiàn)在，OpenClaw似乎也輕易實(shí)現(xiàn)了類似的能力，但顯然，OpenClaw沒有經(jīng)歷過這些。

這就像什么呢？就像你和朋友一起去爬山，你精心準(zhǔn)備、提前出發(fā)，花費(fèi)大量時間，終于氣喘吁吁地來到山頂時，你卻發(fā)現(xiàn)，你的朋友坐著直升機(jī)，已經(jīng)在這里等你多時了。

具體來看，OpenClaw還在更多的場景中都展現(xiàn)出了強(qiáng)大的泛化能力、決策和自我進(jìn)化的能力。

比如在一個實(shí)驗(yàn)里，還有一段更生活化的測試。工作人員對機(jī)械臂說：“今天是元宵節(jié)，給我做點(diǎn)甜米酒湯圓。”

機(jī)械臂先停頓思考任務(wù)，隨后開始執(zhí)行：把湯倒進(jìn)鍋里，把湯圓放進(jìn)去，等待水煮開。

中途工作人員還問：“能不能加點(diǎn)糖？”

機(jī)械臂反問：“黃糖還是桂花糖？”

得到“黃糖”的回答后，它把糖倒進(jìn)了鍋里。

此外還有各種各樣的實(shí)驗(yàn)，比如有開發(fā)者把OpenClaw接入工業(yè)機(jī)械臂，讓它根據(jù)自然語言指令完成抓取或搬運(yùn)任務(wù)，系統(tǒng)甚至?xí)詣由煽刂茩C(jī)械臂的Python腳本。

除了機(jī)械臂，四足機(jī)器人也很快出現(xiàn)在各種“養(yǎng)蝦”實(shí)驗(yàn)里。

在Reddit和X上流傳的一些視頻中，有開發(fā)者把OpenClaw接入機(jī)器狗，讓它在環(huán)境中自主巡邏。

過去，這類機(jī)器人通常需要遙控操作，或者按照提前設(shè)計好的路線行動。但在這些實(shí)驗(yàn)中，沒有操控，也沒有提前規(guī)劃的路線，機(jī)器狗根據(jù)攝像頭看到的環(huán)境，自己判斷、自己規(guī)劃，比如繞開障礙物、或者在遇到新情況時重新規(guī)劃路徑。

而當(dāng)這些實(shí)驗(yàn)開始出現(xiàn)在人形機(jī)器人身上時，事情就變得更有意思了。

比如在一個開源社區(qū)中，就有人發(fā)布了一套適用于OpenClaw的Unitree-robot技能。有了這個集成，開發(fā)者可以直接通過即時通訊軟件控制宇樹機(jī)器人，比如G1，甚至包括更大的H1，以及四足機(jī)器人GO1和GO2。

整個過程比想象中簡單得多。開發(fā)者不需要打開復(fù)雜的圖形界面，也不用手動調(diào)用SDK，只要在聊天窗口里發(fā)一句話：

“前進(jìn)一米。”

“左轉(zhuǎn)45度。”

機(jī)器人就會執(zhí)行對應(yīng)的動作。

這種控制甚至是雙向的。OpenClaw可以從機(jī)器人搭載的立體相機(jī)中獲取環(huán)境圖像，再把截圖直接發(fā)回聊天窗口，讓開發(fā)者隨時查看現(xiàn)場。如果再接入路徑規(guī)劃模塊，系統(tǒng)還可以自動規(guī)劃路線、避開障礙物。

同樣，整個過程沒有預(yù)設(shè)腳本，也沒有提前規(guī)劃好的動作路徑。

開發(fā)者只是給出一個目標(biāo)，剩下的事情就都交給了AI，它自己判斷、自己規(guī)劃。

一只小龍蝦，能掀翻人形機(jī)器人嗎？

我們從各種的演示視頻中，看到了OpenClaw結(jié)合其他大模型表現(xiàn)出來的驚人能力。

放以前，足以成為許多人形機(jī)器人公司最驕傲的成果，放到現(xiàn)在也變得平平無奇。

因此，這不得不讓人產(chǎn)生一個疑問：機(jī)器人行業(yè)花了這么多年，采集數(shù)據(jù)、訓(xùn)練模型、開發(fā)系統(tǒng)才實(shí)現(xiàn)的能力，還有價值嗎？

答案當(dāng)然是否定的。

這話得從頭說起，一個機(jī)器人，除了本體之外，決策系統(tǒng)大致可以被拆為四層，從上往下分別是：

決策層（大腦）：理解目標(biāo)與任務(wù)拆解；感知/表征層：識別環(huán)境、目標(biāo)與空間狀態(tài)；行為組織層：把任務(wù)拆成技能和動作序列；控制層（小腦）：軌跡、伺服、避障、安全執(zhí)行。

在這個框架下，OpenClaw 主要負(fù)責(zé)前面幾層能力的調(diào)用、編排和銜接。至于機(jī)器人最后怎么動、動作能不能穩(wěn)定落地，仍然依賴底層控制系統(tǒng)、運(yùn)動學(xué)求解和執(zhí)行鏈路。

因此，OpenClaw 并不是讓機(jī)器人突然學(xué)會了運(yùn)動，它反而更像是一個上層調(diào)度系統(tǒng)，把人的指令翻譯成一連串可調(diào)用的能力。

這里真正值得注意的亮點(diǎn)其實(shí)有兩個。

第一個，是OpenClaw改變了機(jī)器人獲得這些能力的方式。

過去，很多能力并不是做不到，而是往往要為單一任務(wù)投入大量數(shù)據(jù)采集、專門訓(xùn)練和復(fù)雜的規(guī)則工程。

而現(xiàn)在，OpenClaw可以直接借助已經(jīng)成熟的多模態(tài)模型、工具系統(tǒng)和模塊化執(zhí)行鏈路，把許多原本需要單獨(dú)開發(fā)、單獨(dú)訓(xùn)練的能力，變成了可以直接調(diào)用，和快速組合的能力。

結(jié)果就是，同樣一個抓取、查找或巡檢任務(wù)，開發(fā)效率更高，試錯周期更短，整體成本也更低。

第二就是，OpenClaw讓機(jī)器人開始具備一種過去很少真正建立起來的能力：對現(xiàn)實(shí)世界的持續(xù)記憶。

傳統(tǒng)機(jī)器人更多是在“當(dāng)下”工作。它看到什么，就對什么做出反應(yīng)；任務(wù)結(jié)束后，對環(huán)境的理解也大多停留在那一刻。很多系統(tǒng)當(dāng)然也能做地圖、定位和任務(wù)狀態(tài)保存，但它們通常并不會把“地點(diǎn)、物體、事件和時間”持續(xù)組織成一個可隨時調(diào)用的統(tǒng)一記憶結(jié)構(gòu)。

而現(xiàn)在，OpenClaw開始嘗試把機(jī)器人感知到的重要對象、地點(diǎn)、事件和時間組織成可檢索的時空語義記憶。

這意味著，機(jī)器人不再只是執(zhí)行命令，而是在持續(xù)積累上下文。

一個人什么時候進(jìn)入房間，一個物體被放在了哪里，一段行為發(fā)生在什么時間點(diǎn)，這些都可能被納入后續(xù)搜索、判斷和行動的依據(jù)。

當(dāng)然，這并不等于它已經(jīng)擁有了像人一樣完整的世界理解，但至少說明，它開始具備一種面向現(xiàn)實(shí)世界的結(jié)構(gòu)化記憶能力。

這件事的意義在于，機(jī)器人能力的邊界正在從“完成一次任務(wù)”往“持續(xù)理解一個環(huán)境”延伸。（在同一環(huán)境或相似環(huán)境中，持續(xù)上下文會提升任務(wù)連續(xù)性和局部穩(wěn)定性，但這并不等于系統(tǒng)已經(jīng)獲得了廣義泛化能力。）

當(dāng)然，OpenClaw能做到這些，并不是憑空產(chǎn)生的，其背后支持的有兩個重要的原因。

第一個原因是，最近幾年機(jī)器人本身的底層架構(gòu)開始發(fā)生了變化。

過去，很多機(jī)器人系統(tǒng)更像一個個封閉的煙囪：感知是一套，規(guī)劃是一套，控制又是一套，彼此連接復(fù)雜，開發(fā)門檻很高。很多能力雖然已經(jīng)存在，但很難被靈活調(diào)用。

而現(xiàn)在，機(jī)器人系統(tǒng)正在變得越來越模塊化、標(biāo)準(zhǔn)化。相機(jī)、機(jī)械臂、抓取模塊、路徑規(guī)劃、底層控制接口，都在逐步變成可插拔、可組合的能力單元。

OpenClaw之所以看起來很強(qiáng)，不是因?yàn)樗鼞{空創(chuàng)造了底層機(jī)器人能力，而是因?yàn)樗梢哉驹谝粋€已經(jīng)逐漸標(biāo)準(zhǔn)化的執(zhí)行棧之上，把這些能力重新組織起來。

第二個原因，是多模態(tài)大模型正在快速整合原來分散的能力。

過去，人形機(jī)器人如果要完成一個任務(wù)，往往要單獨(dú)解決很多問題：文字理解、語音識別、圖像識別、視頻理解、目標(biāo)檢測、空間判斷、任務(wù)拆解，常常要靠不同模塊分別完成。

但現(xiàn)在，多模態(tài)大模型已經(jīng)能同時處理文字、圖像、語音、視頻等不同信息，并把這些信息放進(jìn)同一個上下文里統(tǒng)一理解。這意味著，機(jī)器人過去那些需要單獨(dú)訓(xùn)練、單獨(dú)接入的感知和理解能力，正在被更通用的基礎(chǔ)模型逐步吸收。

這導(dǎo)致機(jī)器人上層智能的開發(fā)門檻被明顯拉低了。而這就是OpenClaw的意義，它不是重新發(fā)明這些能力，而是把這些已經(jīng)變強(qiáng)的通用能力，更高效地接進(jìn)了機(jī)器人系統(tǒng)。

具身大模型，還有沒有意義？

說到這里，就自然會延伸出一個更關(guān)鍵的問題：既然基礎(chǔ)模型已經(jīng)越來越強(qiáng)，單獨(dú)做一個具身智能大模型，還有意義嗎？

畢竟在此之前，很多人形機(jī)器人公司都曾高調(diào)宣布自研具身大模型，并把它視為公司最重要的戰(zhàn)略核心，仿佛誰掌握了具身模型，誰就掌握了機(jī)器人的未來。

可現(xiàn)在看起來，通用基礎(chǔ)模型正在迅速補(bǔ)齊理解、感知和任務(wù)編排能力，原來機(jī)器人公司花了很多年構(gòu)建的部分上層能力，正在被更大的基礎(chǔ)模型體系快速通用化。

答案是：有，而且依然重要。

原因在于，基礎(chǔ)模型變強(qiáng)，主要改變的是機(jī)器人“理解世界”的能力；而具身模型真正決定的，是機(jī)器人“如何在物理世界里把動作做出來”的能力。

理解一句話、識別一個目標(biāo)、拆解一個任務(wù)，這些事情確實(shí)越來越像通用能力了。但機(jī)器人最難的部分，從來不只是聽懂、看懂，而是進(jìn)入現(xiàn)實(shí)世界以后，動作是否真的成立，抓取角度對不對，軌跡穩(wěn)不穩(wěn)，接觸力會不會失控，目標(biāo)被遮擋后能不能繼續(xù)，抓取失敗后能不能恢復(fù)，換一個場景、換一個物體、換一臺機(jī)器之后還能不能成功。

這些問題不是只靠更強(qiáng)的“理解能力”就能自動解決的。

具身智能大模型的價值，不在于把所有事情都包下來，而在于把大量和動作、操作、交互相關(guān)的經(jīng)驗(yàn)沉淀下來，讓機(jī)器人不僅能做出一個demo，更能形成穩(wěn)定、可復(fù)用、可泛化的能力。

換句話說，通用模型正在吃掉的是“理解層”；而具身模型守住的，仍然是“動作層”和“物理落地層”。

所以，具身模型不是沒有意義了，而是它的角色正在變化：過去它像是想包辦一切的“全棧大腦”，現(xiàn)在它更像是在整個機(jī)器人系統(tǒng)里，負(fù)責(zé)決定能力上限的關(guān)鍵一層。

最后，讓我們回到最開始的問題，OpenClaw到底給人形機(jī)器人行業(yè)帶來了什么？

答案是，它讓整個行業(yè)更早接受了一個事實(shí)：人形機(jī)器人的上層任務(wù)智能，正在快速通用化。

過去，很多公司最稀缺的能力，是把理解、感知、規(guī)劃和調(diào)用整合成一個能工作的系統(tǒng)；但現(xiàn)在，隨著多模態(tài)基礎(chǔ)模型和Agent框架成熟，這部分門檻正在迅速下降。

做一個像樣的demo，會越來越容易，這也意味著，機(jī)器人行業(yè)正在進(jìn)入深水區(qū)。

未來比拼的，不再是誰先做出一個會“聽懂指令”的演示，而是誰能把動作做穩(wěn)，把成功率做高，把系統(tǒng)做成低延遲、可復(fù)現(xiàn)、可量產(chǎn)、可安全部署的產(chǎn)品。真正決定勝負(fù)的，將是更底層的專業(yè)能力：控制、數(shù)據(jù)、魯棒性、工程化和量產(chǎn)能力。

換句話說，OpenClaw降低了做demo的門檻，卻沒有降低做成產(chǎn)品的難度。

而這恰恰是它對行業(yè)最大的沖擊：那些還浮在表面、靠手搓demo講故事的公司，其競爭力會迅速被擠壓；潮水退去之后，才知道誰在裸泳。

原文標(biāo)題 : OpenClaw，正在重寫人形機(jī)器人的競爭邏輯？