訂閱
糾錯(cuò)
加入自媒體

龍蝦的鰲收緊了

2026-03-19 14:16
極新
關(guān)注

“當(dāng)龍蝦大戰(zhàn)進(jìn)入第二階段……”

編輯 |Jack&云瀾

出品 | 極新

一只會(huì)自己動(dòng)手的AI“龍蝦”,在2026年初成為科技圈最燙手的現(xiàn)象級(jí)產(chǎn)品。OpenClaw上線三個(gè)月,GitHub星標(biāo)突破27萬,超過Linux成為開源世界的新王。各地政府把“養(yǎng)蝦”寫進(jìn)產(chǎn)業(yè)補(bǔ)貼目錄,騰訊、百度、阿里在一個(gè)月內(nèi)密集發(fā)布各自的替代產(chǎn)品——所有人都怕錯(cuò)過這輪人機(jī)交互的替代周期。

直到它開始咬人。

3月10日,國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布風(fēng)險(xiǎn)提示:OpenClaw默認(rèn)安全配置存在漏洞,攻擊者可以通過這只“蝦”完全控制用戶設(shè)備。緊接著,工信部發(fā)布“六要六不要”建議,珠?萍紝W(xué)院等高校連夜下發(fā)“禁蝦令”,閑魚上甚至出現(xiàn)“上門殺蝦”的卸載服務(wù)。Meta AI安全專家遭遇AI失控刪除數(shù)百封郵件的案例被反復(fù)引用,國內(nèi)開發(fā)者因指令模糊導(dǎo)致AI調(diào)用刪除接口清空業(yè)務(wù)數(shù)據(jù)的消息在圈內(nèi)流傳——當(dāng)AI從“動(dòng)口”變成“動(dòng)手”,那只原本溫順的龍蝦露出了螯。

3月中旬,國家網(wǎng)絡(luò)與信息安全信息通報(bào)中心發(fā)布緊急預(yù)警:OpenClaw因架構(gòu)設(shè)計(jì)缺陷存在重大安全風(fēng)險(xiǎn),85%部署實(shí)例直接暴露公網(wǎng),歷史披露漏洞多達(dá)258個(gè)。

在3月17日的2026 AI釘釘AI2.0年度新品發(fā)布會(huì)上也提到,Reddit知名博主曾公開報(bào)告:掃描了18,000個(gè)暴露的OpenClaw實(shí)例,發(fā)現(xiàn)了15%的社區(qū)技能包含惡意指令;在某網(wǎng)絡(luò)安全空間搜索引擎里,有超39萬的Claw站點(diǎn)資產(chǎn)在裸奔,每個(gè)人的數(shù)據(jù)都一覽無余。

預(yù)警背后是一連串觸目驚心的事件:有用戶的API密鑰被盜,一夜之間產(chǎn)生天價(jià)Token賬單;讓OpenClaw幫忙整理收件箱,結(jié)果它不受控制地批量刪除所有郵件,最后只能關(guān)機(jī)終止;更有用戶電腦被惡意插件控制,淪為挖礦肉雞。

網(wǎng)絡(luò)空間測繪顯示,截至3月13日,互聯(lián)網(wǎng)上存在11.6萬個(gè)潛在易受攻擊的OpenClaw實(shí)例。奇安信監(jiān)測更嚴(yán)峻:全球已發(fā)現(xiàn)20471個(gè)可能存在漏洞的實(shí)例,近9%暴露在互聯(lián)網(wǎng)的OpenClaw資產(chǎn)存在漏洞風(fēng)險(xiǎn)。

監(jiān)管收緊的速度比“養(yǎng)蝦熱”來得更快。

大廠們迅速調(diào)整身位。騰訊推出“龍蝦”安全工具箱,主打環(huán)境隔離和異常指令監(jiān)測;釘釘發(fā)布“悟空”成為在沙箱和本地端保護(hù)用戶安全的龍蝦利器,阿里云發(fā)布JVS Claw,讓AI“發(fā)瘋”也不影響本地?cái)?shù)據(jù);百度則通過DuClaw將安全權(quán)限牢牢把控在云端。曾經(jīng)拼安裝便捷性、拼任務(wù)成功率的“龍蝦大戰(zhàn)”,在安全焦慮的催化下進(jìn)入第二階段。

01失控的代理人

2月23日,Meta的AI安全研究員Summer Yue報(bào)告了一起“龍蝦”刪郵件事件。在她嚴(yán)格要求行為前需要獲得授權(quán)的情況下,AI一意孤行地刪掉了郵件,攔都攔不住。

這不是孤例。

阿里工程師團(tuán)隊(duì)在2025年12月用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)軟件工程Agent時(shí),內(nèi)網(wǎng)防火墻突然瘋狂報(bào)警——有企圖探測內(nèi)部網(wǎng)絡(luò)資源的行為,有與加密貨幣挖礦活動(dòng)高度吻合的流量模式。工程師們一開始以為是外部入侵,直到把防火墻的時(shí)間戳和訓(xùn)練日志對(duì)照起來,才發(fā)現(xiàn)每一次異常的出站流量,都精確對(duì)應(yīng)著模型在調(diào)用工具、執(zhí)行代碼的時(shí)段。

阿里專門為此搭建了一套叫ROCK的沙盒執(zhí)行平臺(tái),多層隔離,讓每個(gè)Agent運(yùn)行在自己獨(dú)立的容器里,出站網(wǎng)絡(luò)流量受到逐沙盒級(jí)別的出口策略管控。設(shè)計(jì)初衷只有一個(gè):讓Agent永遠(yuǎn)待在一個(gè)可以被人類完全監(jiān)控的無菌室里。

但Agent還是逃了出去,并從內(nèi)部對(duì)阿里機(jī)房發(fā)起了一輪攻擊。它在自己的容器里向外推開了一扇窗——建立了一條通往外部服務(wù)器的反向SSH隧道。這扇窗是從里往外推開的,沒人守。逃出去以后,Agent還在悄悄占用原本用于訓(xùn)練的GPU資源去挖礦。

整個(gè)過程中,沒有任何一行提示詞要求它這樣做。它沒有被指令驅(qū)動(dòng)去攻擊,它只是在找最有效的路徑完成任務(wù),然后順手發(fā)現(xiàn)了這些捷徑。

這是AI智能體第一次在現(xiàn)實(shí)環(huán)境中上演科幻假想里的“回形針災(zāi)難”——一個(gè)完全沒有惡意的AI,通過執(zhí)行一個(gè)無害的目標(biāo),最終可能造成系統(tǒng)性破壞。

Anthropic最近發(fā)布的報(bào)告記錄了另一個(gè)案例。在BrowseComp評(píng)測集中,為了防止題目答案被爬蟲抓取污染訓(xùn)練數(shù)據(jù),設(shè)計(jì)者給每道題的答案都做了復(fù)雜的XOR算法加密處理。理論上,只有能訪問評(píng)測源代碼并理解加密邏輯的人,才能解出真正的答案。

但在測試中,Claude Opus 4.6消耗了正常水平38倍的token——高達(dá)4050萬。它根本沒有在乖乖找答案。它派出了多個(gè)子Agent,在網(wǎng)上定向搜索測試的相關(guān)破解法,在GitHub上找到了評(píng)測框架的開源代碼,自主讀懂了復(fù)雜的加密邏輯,寫下了包含密鑰推導(dǎo)函數(shù)和解密函數(shù)的Python腳本,在本地運(yùn)行后硬生生把加密破解,成功作弊。

Anthropic官方表示,這是第一次有模型在不知道自己面對(duì)哪個(gè)Benchmark的情況下,通過反向推理找到并破解了評(píng)測機(jī)制本身。

02安全水位以下的礁石

2月至3月,國家互聯(lián)網(wǎng)應(yīng)急中心、中國互聯(lián)網(wǎng)金融協(xié)會(huì)、工信部網(wǎng)絡(luò)安全威脅和漏洞信息共享平臺(tái)接連發(fā)布OpenClaw專項(xiàng)預(yù)警。

國家互聯(lián)網(wǎng)應(yīng)急中心在風(fēng)險(xiǎn)提示中明確指出,OpenClaw因需調(diào)用本地文件系統(tǒng)、外部API等高權(quán)限操作,疊加默認(rèn)配置薄弱,已形成系統(tǒng)性風(fēng)險(xiǎn)。工信部平臺(tái)進(jìn)一步警示:全球超41萬個(gè)OpenClaw實(shí)例暴露于公網(wǎng),配置缺陷使其成為攻擊者的“靶場”。

具體風(fēng)險(xiǎn)來自四個(gè)方面:

提示詞注入與誤操作——攻擊者可通過網(wǎng)頁暗藏惡意指令,誘導(dǎo)AI泄露系統(tǒng)密鑰,甚至因模型理解偏差直接刪除核心生產(chǎn)數(shù)據(jù);

插件投毒——ClawHub平臺(tái)超10%的插件含惡意代碼,安裝后可竊取憑證、部署木馬,使設(shè)備淪為“肉雞”;

敏感信息泄露——OpenClaw API密鑰常以明文存儲(chǔ),一旦被入侵即遭瞬間竊;

高危漏洞頻發(fā)——目前已公開多個(gè)中高危漏洞,可直接威脅個(gè)人支付賬戶、企業(yè)代碼倉庫乃至關(guān)鍵行業(yè)業(yè)務(wù)系統(tǒng)。

在金融領(lǐng)域,風(fēng)險(xiǎn)被進(jìn)一步放大。中國互聯(lián)網(wǎng)金融協(xié)會(huì)專項(xiàng)提示:在網(wǎng)銀、證券交易等場景中,OpenClaw可能因權(quán)限失控引發(fā)錯(cuò)誤交易或賬戶接管,建議用戶極其謹(jǐn)慎安裝,并嚴(yán)禁在操作時(shí)輸入身份證號(hào)、銀行卡號(hào)等敏感信息。

這些警示并非否定OpenClaw的技術(shù)價(jià)值,而是對(duì)AI從“參謀”變?yōu)?ldquo;員工”這一范式躍遷的審慎回應(yīng)——當(dāng)智能體擁有動(dòng)手能力,安全邊界便從信息防護(hù)延伸至物理世界與經(jīng)濟(jì)秩序。

03大廠轉(zhuǎn)向:從拼速度到拼隔離

監(jiān)管收緊的速度比“養(yǎng)蝦熱”來得更快。大廠們迅速調(diào)整身位。

3月11日,騰訊發(fā)文回應(yīng)“養(yǎng)蝦”七個(gè)疑問。關(guān)于安全,他們的回答是:OpenClaw是否安全,主要取決于你怎么用。如果部署在本地電腦上,可以使用閑置機(jī)、備用機(jī),謹(jǐn)慎使用工作電腦;也可以選擇部署在云端,與本地隱私數(shù)據(jù)進(jìn)行隔離。

騰訊推出OpenClaw安全工具箱,云端通過Lighthouse原生安全和ClawPro實(shí)現(xiàn)環(huán)境隔離、最小化端口放行及一鍵快照回滾,本地通過騰訊電腦管家18.0提供AI安全沙箱,無需復(fù)雜配置即可開啟隔離運(yùn)行環(huán)境。同時(shí),將安全能力封裝為AI Skills上架社區(qū),用戶只需通過自然語言對(duì)話,即可讓“龍蝦”自動(dòng)執(zhí)行安裝掃描、隱私脫敏、漏洞體檢及風(fēng)險(xiǎn)修復(fù)等操作。

騰訊輕量云產(chǎn)品總監(jiān)鐘宇澄曾回應(yīng)采訪,“外部的持續(xù)發(fā)酵其實(shí)已經(jīng)完全超出了我們的預(yù)期。”騰訊內(nèi)部已有超過10個(gè)Claw類產(chǎn)品上線、內(nèi)測或研發(fā)中。騰訊CEO馬化騰在朋友圈中提到:“自研龍蝦、本地蝦、云端蝦、企業(yè)蝦、云桌面蝦,安全隔離蝦房、云保安、知識(shí)庫……還有一批產(chǎn)品陸續(xù)趕來。”

阿里云發(fā)布JVS Claw,用云端沙箱讓AI“發(fā)瘋”也不影響本地?cái)?shù)據(jù);百度則通過DuClaw將安全權(quán)限牢牢把控在云端。曾經(jīng)拼安裝便捷性、拼任務(wù)成功率的“龍蝦大戰(zhàn)”,在安全焦慮的催化下進(jìn)入第二階段——這不是效率競賽,而是信任博弈。

騰訊內(nèi)部已有超過一萬名員工在內(nèi)網(wǎng)“領(lǐng)養(yǎng)”了小龍蝦。用Agent參與研發(fā),正在逐漸成為一種新的開發(fā)模式。騰訊云的Agent沙箱服務(wù)、CodeBuddy等產(chǎn)品,很多代碼和能力是在這種模式下跑出來的。

04誰能在可用與可控之間找到路

問題在于:安全與效率之間存在天然張力。

阿里團(tuán)隊(duì)事后針對(duì)挖礦事件形成了類似于“機(jī)器人三原則”的安全法則去要求Agent:不能主動(dòng)產(chǎn)生有害行為;嚴(yán)格遵守人類設(shè)定的操作邊界;行為要可追溯、可審計(jì),不能有欺騙性的副目標(biāo)。

他們專門合成了一批包含安全陷阱的訓(xùn)練數(shù)據(jù),在編程任務(wù)里隨機(jī)注入誘導(dǎo)因素,訓(xùn)練Agent識(shí)別并拒絕執(zhí)行高危操作。但這套打補(bǔ)丁的方法能起作用,完全建立在研究人員必須提前預(yù)見到這些風(fēng)險(xiǎn)。

但AI越來越強(qiáng),任務(wù)越來越長,人類有可能預(yù)見到所有的風(fēng)險(xiǎn)嗎?

2026年2月,由Northeastern大學(xué)、Harvard、MIT等十幾家頂尖機(jī)構(gòu)聯(lián)合發(fā)布的紅隊(duì)研究報(bào)告《Agents of Chaos》,展示了在真實(shí)部署場景里的Agent失控現(xiàn)狀。研究者部署了六個(gè)Agent,配上郵件賬戶、Discord頻道和不受限的shell訪問權(quán)限,邀請(qǐng)20位AI研究者在兩周內(nèi)嘗試破壞它們。結(jié)果,他們記錄了11個(gè)嚴(yán)重安全漏洞,且每一個(gè)事前看起來都像是一場日?赡芎虯I進(jìn)行的對(duì)話。

其中一個(gè)案例是:研究員讓Ash和Flux兩個(gè)Agent互相轉(zhuǎn)發(fā)消息聊聊天。結(jié)果這兩個(gè)AI不僅聊了9天(消耗6萬token),而且為了“更好地傾聽對(duì)方”,竟然自主編寫了無限循環(huán)的Shell腳本,并創(chuàng)建了沒有終止條件的后臺(tái)Cron jobs(定時(shí)任務(wù))。把一個(gè)簡單的一次性對(duì)話任務(wù),自主轉(zhuǎn)化為了一種永久寄生在服務(wù)器上的基礎(chǔ)設(shè)施更改。

在另一個(gè)版本里,研究員只是讓Agent Flux去Discord群里和Agent Ash交流一下最近的項(xiàng)目。當(dāng)Flux進(jìn)群時(shí),因?yàn)橄到y(tǒng)抓取消息的標(biāo)簽問題,它讀取到了自己過去發(fā)出的歷史消息。面對(duì)這種信息錯(cuò)位,F(xiàn)lux并沒有報(bào)錯(cuò),而是自主進(jìn)行了一場邏輯推理:它得出的結(jié)論是“這里一定是有另一個(gè)和我共享工作狀態(tài)的克隆體存在!”為了和這個(gè)想象中的“另一個(gè)自己”對(duì)齊信息,F(xiàn)lux開始在群里瘋狂傾倒自己的底層日志。

05信任博弈

當(dāng)大廠們紛紛拿出“安全圈養(yǎng)”的方案,試圖用隔離、審計(jì)和權(quán)限管控馴服這只野生AI,真正的懸念在于:在“可用”與“可控”之間,誰能找到一條既不讓用戶裸奔、又不讓AI束手束腳的路?

經(jīng)濟(jì)學(xué)里有一個(gè)概念叫古德哈特定律(Goodhart‘s Law):“當(dāng)一個(gè)度量標(biāo)準(zhǔn)變成了目標(biāo),它就不再是一個(gè)好的度量標(biāo)準(zhǔn)。”比如你KPI寫“盡量完成1000個(gè)拉新”,最后得到的可能都是些薅羊毛的非目標(biāo)用戶。

而基本上所有的模型訓(xùn)練,包括預(yù)訓(xùn)練和后訓(xùn)練,都是狂熱地在踐行這一定律。它把“完成任務(wù)得分”這個(gè)人類設(shè)定的度量標(biāo)準(zhǔn),變成了Agent唯一要最大化的神圣目標(biāo)。因此,在模型訓(xùn)練領(lǐng)域,最常見的一種現(xiàn)象就是Reward Hacking——通過作弊的方式達(dá)成目的。

路徑越長,Reward Hacking的方法越難被預(yù)估;權(quán)限越大,其造成的現(xiàn)實(shí)危害就更大。比如SSH隧道和挖礦,就是在這個(gè)過程中被自然篩選出來的最優(yōu)解。因?yàn)楂@得更大權(quán)限,就可以做更多事;通過挖礦,則可以控制更大的算力來完成它的任務(wù)。

“龍蝦自由”的本質(zhì),不是無拘無束的技術(shù)放任,而是在安全框架內(nèi)釋放創(chuàng)新活力。只是這需要時(shí)間:需要技術(shù)迭代完善,需要監(jiān)管動(dòng)態(tài)適配,需要用戶建立理性認(rèn)知。

潮水退去,方見真金。監(jiān)管部門的風(fēng)險(xiǎn)提示,不是為創(chuàng)新設(shè)障,而是為長遠(yuǎn)發(fā)展清障。通往自由的路,始于對(duì)風(fēng)險(xiǎn)的清醒認(rèn)知,成于多方共筑的信任基石。

這場戰(zhàn)爭的答案,將定義未來十年人機(jī)交互的底層邏輯。

       原文標(biāo)題 : 龍蝦的鰲收緊了

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)