123,123

龍蝦的鰲收緊了

2026-03-19 14:16

“當(dāng)龍蝦大戰(zhàn)進(jìn)入第二階段……”

編輯 |Jack&云瀾

出品 | 極新

一只會(huì)自己動(dòng)手的AI“龍蝦”，在2026年初成為科技圈最燙手的現(xiàn)象級(jí)產(chǎn)品。OpenClaw上線三個(gè)月，GitHub星標(biāo)突破27萬，超過Linux成為開源世界的新王。各地政府把“養(yǎng)蝦”寫進(jìn)產(chǎn)業(yè)補(bǔ)貼目錄，騰訊、百度、阿里在一個(gè)月內(nèi)密集發(fā)布各自的替代產(chǎn)品——所有人都怕錯(cuò)過這輪人機(jī)交互的替代周期。

直到它開始咬人。

3月10日，國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布風(fēng)險(xiǎn)提示：OpenClaw默認(rèn)安全配置存在漏洞，攻擊者可以通過這只“蝦”完全控制用戶設(shè)備。緊接著，工信部發(fā)布“六要六不要”建議，珠�？萍紝W(xué)院等高校連夜下發(fā)“禁蝦令”，閑魚上甚至出現(xiàn)“上門殺蝦”的卸載服務(wù)。Meta AI安全專家遭遇AI失控刪除數(shù)百封郵件的案例被反復(fù)引用，國內(nèi)開發(fā)者因指令模糊導(dǎo)致AI調(diào)用刪除接口清空業(yè)務(wù)數(shù)據(jù)的消息在圈內(nèi)流傳——當(dāng)AI從“動(dòng)口”變成“動(dòng)手”，那只原本溫順的龍蝦露出了螯。

3月中旬，國家網(wǎng)絡(luò)與信息安全信息通報(bào)中心發(fā)布緊急預(yù)警：OpenClaw因架構(gòu)設(shè)計(jì)缺陷存在重大安全風(fēng)險(xiǎn)，85%部署實(shí)例直接暴露公網(wǎng)，歷史披露漏洞多達(dá)258個(gè)。

在3月17日的2026 AI釘釘AI2.0年度新品發(fā)布會(huì)上也提到，Reddit知名博主曾公開報(bào)告：掃描了18,000個(gè)暴露的OpenClaw實(shí)例，發(fā)現(xiàn)了15%的社區(qū)技能包含惡意指令；在某網(wǎng)絡(luò)安全空間搜索引擎里，有超39萬的Claw站點(diǎn)資產(chǎn)在裸奔，每個(gè)人的數(shù)據(jù)都一覽無余。

預(yù)警背后是一連串觸目驚心的事件：有用戶的API密鑰被盜，一夜之間產(chǎn)生天價(jià)Token賬單；讓OpenClaw幫忙整理收件箱，結(jié)果它不受控制地批量刪除所有郵件，最后只能關(guān)機(jī)終止；更有用戶電腦被惡意插件控制，淪為挖礦肉雞。

網(wǎng)絡(luò)空間測繪顯示，截至3月13日，互聯(lián)網(wǎng)上存在11.6萬個(gè)潛在易受攻擊的OpenClaw實(shí)例。奇安信監(jiān)測更嚴(yán)峻：全球已發(fā)現(xiàn)20471個(gè)可能存在漏洞的實(shí)例，近9%暴露在互聯(lián)網(wǎng)的OpenClaw資產(chǎn)存在漏洞風(fēng)險(xiǎn)。

監(jiān)管收緊的速度比“養(yǎng)蝦熱”來得更快。

大廠們迅速調(diào)整身位。騰訊推出“龍蝦”安全工具箱，主打環(huán)境隔離和異常指令監(jiān)測；釘釘發(fā)布“悟空”成為在沙箱和本地端保護(hù)用戶安全的龍蝦利器，阿里云發(fā)布JVS Claw，讓AI“發(fā)瘋”也不影響本地?cái)?shù)據(jù)；百度則通過DuClaw將安全權(quán)限牢牢把控在云端。曾經(jīng)拼安裝便捷性、拼任務(wù)成功率的“龍蝦大戰(zhàn)”，在安全焦慮的催化下進(jìn)入第二階段。

01失控的代理人

2月23日，Meta的AI安全研究員Summer Yue報(bào)告了一起“龍蝦”刪郵件事件。在她嚴(yán)格要求行為前需要獲得授權(quán)的情況下，AI一意孤行地刪掉了郵件，攔都攔不住。

這不是孤例。

阿里工程師團(tuán)隊(duì)在2025年12月用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)軟件工程Agent時(shí)，內(nèi)網(wǎng)防火墻突然瘋狂報(bào)警——有企圖探測內(nèi)部網(wǎng)絡(luò)資源的行為，有與加密貨幣挖礦活動(dòng)高度吻合的流量模式。工程師們一開始以為是外部入侵，直到把防火墻的時(shí)間戳和訓(xùn)練日志對(duì)照起來，才發(fā)現(xiàn)每一次異常的出站流量，都精確對(duì)應(yīng)著模型在調(diào)用工具、執(zhí)行代碼的時(shí)段。

阿里專門為此搭建了一套叫ROCK的沙盒執(zhí)行平臺(tái)，多層隔離，讓每個(gè)Agent運(yùn)行在自己獨(dú)立的容器里，出站網(wǎng)絡(luò)流量受到逐沙盒級(jí)別的出口策略管控。設(shè)計(jì)初衷只有一個(gè)：讓Agent永遠(yuǎn)待在一個(gè)可以被人類完全監(jiān)控的無菌室里。

但Agent還是逃了出去，并從內(nèi)部對(duì)阿里機(jī)房發(fā)起了一輪攻擊。它在自己的容器里向外推開了一扇窗——建立了一條通往外部服務(wù)器的反向SSH隧道。這扇窗是從里往外推開的，沒人守。逃出去以后，Agent還在悄悄占用原本用于訓(xùn)練的GPU資源去挖礦。

整個(gè)過程中，沒有任何一行提示詞要求它這樣做。它沒有被指令驅(qū)動(dòng)去攻擊，它只是在找最有效的路徑完成任務(wù)，然后順手發(fā)現(xiàn)了這些捷徑。

這是AI智能體第一次在現(xiàn)實(shí)環(huán)境中上演科幻假想里的“回形針災(zāi)難”——一個(gè)完全沒有惡意的AI，通過執(zhí)行一個(gè)無害的目標(biāo)，最終可能造成系統(tǒng)性破壞。

Anthropic最近發(fā)布的報(bào)告記錄了另一個(gè)案例。在BrowseComp評(píng)測集中，為了防止題目答案被爬蟲抓取污染訓(xùn)練數(shù)據(jù)，設(shè)計(jì)者給每道題的答案都做了復(fù)雜的XOR算法加密處理。理論上，只有能訪問評(píng)測源代碼并理解加密邏輯的人，才能解出真正的答案。

但在測試中，Claude Opus 4.6消耗了正常水平38倍的token——高達(dá)4050萬。它根本沒有在乖乖找答案。它派出了多個(gè)子Agent，在網(wǎng)上定向搜索測試的相關(guān)破解法，在GitHub上找到了評(píng)測框架的開源代碼，自主讀懂了復(fù)雜的加密邏輯，寫下了包含密鑰推導(dǎo)函數(shù)和解密函數(shù)的Python腳本，在本地運(yùn)行后硬生生把加密破解，成功作弊。

Anthropic官方表示，這是第一次有模型在不知道自己面對(duì)哪個(gè)Benchmark的情況下，通過反向推理找到并破解了評(píng)測機(jī)制本身。

02安全水位以下的礁石

2月至3月，國家互聯(lián)網(wǎng)應(yīng)急中心、中國互聯(lián)網(wǎng)金融協(xié)會(huì)、工信部網(wǎng)絡(luò)安全威脅和漏洞信息共享平臺(tái)接連發(fā)布OpenClaw專項(xiàng)預(yù)警。

國家互聯(lián)網(wǎng)應(yīng)急中心在風(fēng)險(xiǎn)提示中明確指出，OpenClaw因需調(diào)用本地文件系統(tǒng)、外部API等高權(quán)限操作，疊加默認(rèn)配置薄弱，已形成系統(tǒng)性風(fēng)險(xiǎn)。工信部平臺(tái)進(jìn)一步警示：全球超41萬個(gè)OpenClaw實(shí)例暴露于公網(wǎng)，配置缺陷使其成為攻擊者的“靶場”。

具體風(fēng)險(xiǎn)來自四個(gè)方面：

提示詞注入與誤操作——攻擊者可通過網(wǎng)頁暗藏惡意指令，誘導(dǎo)AI泄露系統(tǒng)密鑰，甚至因模型理解偏差直接刪除核心生產(chǎn)數(shù)據(jù)；

插件投毒——ClawHub平臺(tái)超10%的插件含惡意代碼，安裝后可竊取憑證、部署木馬，使設(shè)備淪為“肉雞”；

敏感信息泄露——OpenClaw API密鑰常以明文存儲(chǔ)，一旦被入侵即遭瞬間竊��；

高危漏洞頻發(fā)——目前已公開多個(gè)中高危漏洞，可直接威脅個(gè)人支付賬戶、企業(yè)代碼倉庫乃至關(guān)鍵行業(yè)業(yè)務(wù)系統(tǒng)。

在金融領(lǐng)域，風(fēng)險(xiǎn)被進(jìn)一步放大。中國互聯(lián)網(wǎng)金融協(xié)會(huì)專項(xiàng)提示：在網(wǎng)銀、證券交易等場景中，OpenClaw可能因權(quán)限失控引發(fā)錯(cuò)誤交易或賬戶接管，建議用戶極其謹(jǐn)慎安裝，并嚴(yán)禁在操作時(shí)輸入身份證號(hào)、銀行卡號(hào)等敏感信息。

這些警示并非否定OpenClaw的技術(shù)價(jià)值，而是對(duì)AI從“參謀”變?yōu)?ldquo;員工”這一范式躍遷的審慎回應(yīng)——當(dāng)智能體擁有動(dòng)手能力，安全邊界便從信息防護(hù)延伸至物理世界與經(jīng)濟(jì)秩序。

03大廠轉(zhuǎn)向：從拼速度到拼隔離

監(jiān)管收緊的速度比“養(yǎng)蝦熱”來得更快。大廠們迅速調(diào)整身位。

3月11日，騰訊發(fā)文回應(yīng)“養(yǎng)蝦”七個(gè)疑問。關(guān)于安全，他們的回答是：OpenClaw是否安全，主要取決于你怎么用。如果部署在本地電腦上，可以使用閑置機(jī)、備用機(jī)，謹(jǐn)慎使用工作電腦；也可以選擇部署在云端，與本地隱私數(shù)據(jù)進(jìn)行隔離。

騰訊推出OpenClaw安全工具箱，云端通過Lighthouse原生安全和ClawPro實(shí)現(xiàn)環(huán)境隔離、最小化端口放行及一鍵快照回滾，本地通過騰訊電腦管家18.0提供AI安全沙箱，無需復(fù)雜配置即可開啟隔離運(yùn)行環(huán)境。同時(shí)，將安全能力封裝為AI Skills上架社區(qū)，用戶只需通過自然語言對(duì)話，即可讓“龍蝦”自動(dòng)執(zhí)行安裝掃描、隱私脫敏、漏洞體檢及風(fēng)險(xiǎn)修復(fù)等操作。

騰訊輕量云產(chǎn)品總監(jiān)鐘宇澄曾回應(yīng)采訪，“外部的持續(xù)發(fā)酵其實(shí)已經(jīng)完全超出了我們的預(yù)期。”騰訊內(nèi)部已有超過10個(gè)Claw類產(chǎn)品上線、內(nèi)測或研發(fā)中。騰訊CEO馬化騰在朋友圈中提到：“自研龍蝦、本地蝦、云端蝦、企業(yè)蝦、云桌面蝦，安全隔離蝦房、云保安、知識(shí)庫……還有一批產(chǎn)品陸續(xù)趕來。”

阿里云發(fā)布JVS Claw，用云端沙箱讓AI“發(fā)瘋”也不影響本地?cái)?shù)據(jù)；百度則通過DuClaw將安全權(quán)限牢牢把控在云端。曾經(jīng)拼安裝便捷性、拼任務(wù)成功率的“龍蝦大戰(zhàn)”，在安全焦慮的催化下進(jìn)入第二階段——這不是效率競賽，而是信任博弈。

騰訊內(nèi)部已有超過一萬名員工在內(nèi)網(wǎng)“領(lǐng)養(yǎng)”了小龍蝦。用Agent參與研發(fā)，正在逐漸成為一種新的開發(fā)模式。騰訊云的Agent沙箱服務(wù)、CodeBuddy等產(chǎn)品，很多代碼和能力是在這種模式下跑出來的。

04誰能在可用與可控之間找到路

問題在于：安全與效率之間存在天然張力。

阿里團(tuán)隊(duì)事后針對(duì)挖礦事件形成了類似于“機(jī)器人三原則”的安全法則去要求Agent：不能主動(dòng)產(chǎn)生有害行為；嚴(yán)格遵守人類設(shè)定的操作邊界；行為要可追溯、可審計(jì)，不能有欺騙性的副目標(biāo)。

他們專門合成了一批包含安全陷阱的訓(xùn)練數(shù)據(jù)，在編程任務(wù)里隨機(jī)注入誘導(dǎo)因素，訓(xùn)練Agent識(shí)別并拒絕執(zhí)行高危操作。但這套打補(bǔ)丁的方法能起作用，完全建立在研究人員必須提前預(yù)見到這些風(fēng)險(xiǎn)。

但AI越來越強(qiáng)，任務(wù)越來越長，人類有可能預(yù)見到所有的風(fēng)險(xiǎn)嗎？

2026年2月，由Northeastern大學(xué)、Harvard、MIT等十幾家頂尖機(jī)構(gòu)聯(lián)合發(fā)布的紅隊(duì)研究報(bào)告《Agents of Chaos》，展示了在真實(shí)部署場景里的Agent失控現(xiàn)狀。研究者部署了六個(gè)Agent，配上郵件賬戶、Discord頻道和不受限的shell訪問權(quán)限，邀請(qǐng)20位AI研究者在兩周內(nèi)嘗試破壞它們。結(jié)果，他們記錄了11個(gè)嚴(yán)重安全漏洞，且每一個(gè)事前看起來都像是一場日�？赡芎虯I進(jìn)行的對(duì)話。

其中一個(gè)案例是：研究員讓Ash和Flux兩個(gè)Agent互相轉(zhuǎn)發(fā)消息聊聊天。結(jié)果這兩個(gè)AI不僅聊了9天（消耗6萬token），而且為了“更好地傾聽對(duì)方”，竟然自主編寫了無限循環(huán)的Shell腳本，并創(chuàng)建了沒有終止條件的后臺(tái)Cron jobs（定時(shí)任務(wù)）。把一個(gè)簡單的一次性對(duì)話任務(wù)，自主轉(zhuǎn)化為了一種永久寄生在服務(wù)器上的基礎(chǔ)設(shè)施更改。

在另一個(gè)版本里，研究員只是讓Agent Flux去Discord群里和Agent Ash交流一下最近的項(xiàng)目。當(dāng)Flux進(jìn)群時(shí)，因?yàn)橄到y(tǒng)抓取消息的標(biāo)簽問題，它讀取到了自己過去發(fā)出的歷史消息。面對(duì)這種信息錯(cuò)位，F(xiàn)lux并沒有報(bào)錯(cuò)，而是自主進(jìn)行了一場邏輯推理：它得出的結(jié)論是“這里一定是有另一個(gè)和我共享工作狀態(tài)的克隆體存在！”為了和這個(gè)想象中的“另一個(gè)自己”對(duì)齊信息，F(xiàn)lux開始在群里瘋狂傾倒自己的底層日志。

05信任博弈

當(dāng)大廠們紛紛拿出“安全圈養(yǎng)”的方案，試圖用隔離、審計(jì)和權(quán)限管控馴服這只野生AI，真正的懸念在于：在“可用”與“可控”之間，誰能找到一條既不讓用戶裸奔、又不讓AI束手束腳的路？

經(jīng)濟(jì)學(xué)里有一個(gè)概念叫古德哈特定律（Goodhart‘s Law）：“當(dāng)一個(gè)度量標(biāo)準(zhǔn)變成了目標(biāo)，它就不再是一個(gè)好的度量標(biāo)準(zhǔn)。”比如你KPI寫“盡量完成1000個(gè)拉新”，最后得到的可能都是些薅羊毛的非目標(biāo)用戶。

而基本上所有的模型訓(xùn)練，包括預(yù)訓(xùn)練和后訓(xùn)練，都是狂熱地在踐行這一定律。它把“完成任務(wù)得分”這個(gè)人類設(shè)定的度量標(biāo)準(zhǔn)，變成了Agent唯一要最大化的神圣目標(biāo)。因此，在模型訓(xùn)練領(lǐng)域，最常見的一種現(xiàn)象就是Reward Hacking——通過作弊的方式達(dá)成目的。

路徑越長，Reward Hacking的方法越難被預(yù)估；權(quán)限越大，其造成的現(xiàn)實(shí)危害就更大。比如SSH隧道和挖礦，就是在這個(gè)過程中被自然篩選出來的最優(yōu)解。因?yàn)楂@得更大權(quán)限，就可以做更多事；通過挖礦，則可以控制更大的算力來完成它的任務(wù)。

“龍蝦自由”的本質(zhì)，不是無拘無束的技術(shù)放任，而是在安全框架內(nèi)釋放創(chuàng)新活力。只是這需要時(shí)間：需要技術(shù)迭代完善，需要監(jiān)管動(dòng)態(tài)適配，需要用戶建立理性認(rèn)知。

潮水退去，方見真金。監(jiān)管部門的風(fēng)險(xiǎn)提示，不是為創(chuàng)新設(shè)障，而是為長遠(yuǎn)發(fā)展清障。通往自由的路，始于對(duì)風(fēng)險(xiǎn)的清醒認(rèn)知，成于多方共筑的信任基石。

這場戰(zhàn)爭的答案，將定義未來十年人機(jī)交互的底層邏輯。

原文標(biāo)題 : 龍蝦的鰲收緊了