123,123,123

梁文鋒登《自然》封面，曝DeepSeek增量訓(xùn)練成本僅29.4萬(wàn)美元!

2025-09-19 17:56

文 / 汪淼美編 / 顧青青出品 / 網(wǎng)界

中國(guó)團(tuán)隊(duì)登上了《自然》封面。

9月18日，由DeepSeek團(tuán)隊(duì)研發(fā)、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文登上《自然》封面。

但比“登刊”更狠的是，他們干脆自曝家底，DeepSeek-R1的增量訓(xùn)練成本，只要29.4萬(wàn)美元。

要知道，過(guò)去OpenAI、谷歌練個(gè)大模型，動(dòng)不動(dòng)燒掉幾千萬(wàn)美元。而DeepSeek只用512張英偉達(dá)H800顯卡、耗時(shí)80小時(shí)，就完成了核心訓(xùn)練。這筆賬，相當(dāng)于用買(mǎi)一輛跑車(chē)的錢(qián)，干出了別人蓋工廠的活。

更關(guān)鍵的是，《自然》親自下場(chǎng)蓋章，在評(píng)論報(bào)道文章中用了“里程碑式論文揭示DeepSeekAI模型的秘密”、“創(chuàng)造歷史”等詞匯表達(dá)了對(duì)DeepSeek贊賞和肯定。這幾乎是在打臉整個(gè)行業(yè)長(zhǎng)期以來(lái)的“黑箱操作”。

01 29.4萬(wàn)美元背后

當(dāng)DeepSeek在論文里寫(xiě)下“29.4萬(wàn)美元”這個(gè)數(shù)字時(shí)，很多人第一反應(yīng)是：是不是少寫(xiě)了個(gè)零?

但數(shù)據(jù)是實(shí)的：512張H800顯卡、80小時(shí)訓(xùn)練、每GPU小時(shí)租賃價(jià)2美元。而且，這還只是增量成本，是指在已經(jīng)花掉600萬(wàn)美元開(kāi)發(fā)的基座模型(DeepSeek-V3Base)之上，做強(qiáng)化學(xué)習(xí)的開(kāi)銷(xiāo)。

為什么這么便宜? 關(guān)鍵是他們用了“純強(qiáng)化學(xué)習(xí)”框架(GRPO)。簡(jiǎn)單說(shuō)，就是只告訴模型“答案對(duì)不對(duì)”，而不教它“步驟該怎么寫(xiě)”。模型自己琢磨怎么解題，答對(duì)了給獎(jiǎng)勵(lì)，答錯(cuò)了就調(diào)整。這種“放養(yǎng)式訓(xùn)練”反而逼出了它的推理能力。

但便宜也引來(lái)質(zhì)疑。年初就有人猜：是不是偷偷用了OpenAI的GPT-4生成數(shù)據(jù)來(lái)做蒸餾? 否則怎么可能這么低成本達(dá)到高性能?

這次《自然》論文里，DeepSeek直接回應(yīng)：訓(xùn)練數(shù)據(jù)全來(lái)自普通網(wǎng)頁(yè)和電子書(shū)，雖然網(wǎng)上可能混了GPT-4生成的內(nèi)容，但“絕非故意加入”。他們還補(bǔ)充了去污染流程，光數(shù)學(xué)題就刪了600萬(wàn)條可能泄露測(cè)試答案的數(shù)據(jù)。

02《自然》為什么破例？

AI論文登《自然》不稀奇，但AlphaGo、AlphaFold都是首發(fā)。而DeepSeek-R1的論文1月就發(fā)在arXiv上，現(xiàn)在卻還能上封面，《自然》甚至為它配發(fā)社論，這幾乎是從未有過(guò)的待遇。

原因很簡(jiǎn)單：它是第一個(gè)愿意被“扒光”的大模型。8位評(píng)審專家提了上百個(gè)問(wèn)題，從“數(shù)據(jù)是否污染”到“推理步驟是不是瞎編的”，甚至摳到單詞單復(fù)數(shù)用法。DeepSeek團(tuán)隊(duì)寫(xiě)了64頁(yè)回復(fù)，幾乎等于重寫(xiě)半篇論文。

比如評(píng)審問(wèn)：“你說(shuō)模型開(kāi)源了，但‘開(kāi)源’定義模糊，到底開(kāi)了多少?”團(tuán)隊(duì)立刻補(bǔ)上數(shù)據(jù)鏈接和授權(quán)細(xì)節(jié)。

還有人擔(dān)心：“模型會(huì)不會(huì)為了拿獎(jiǎng)勵(lì)亂寫(xiě)步驟?” 他們馬上加實(shí)驗(yàn)證明“步驟與答案的一致性”。

這種透明，戳中了AI行業(yè)的痛點(diǎn)。過(guò)去大模型廠商總說(shuō)自己“遙遙領(lǐng)先”，但測(cè)試數(shù)據(jù)不公開(kāi)、訓(xùn)練方法遮遮掩掩�！蹲匀弧飞缯撜f(shuō)得直接：AI宣傳未經(jīng)證實(shí)，可能對(duì)社會(huì)帶來(lái)真實(shí)風(fēng)險(xiǎn)。

而DeepSeek把代碼、數(shù)據(jù)、訓(xùn)練日志全攤開(kāi)，等于告訴行業(yè)：以后想讓人信你，先學(xué)我“曬數(shù)據(jù)”。

03 國(guó)產(chǎn)AI芯片的機(jī)會(huì)來(lái)了？

29.4萬(wàn)美元的成本，不僅打了歐美巨頭的臉，還可能給國(guó)產(chǎn)芯片撕開(kāi)一道口子。DeepSeek在論文里沒(méi)提任何芯片公司，但明眼人都能算賬：如果訓(xùn)練成本降到原來(lái)的十分之一，那是不是用性價(jià)比更高的國(guó)產(chǎn)芯片也能跑?

華為昇騰、寒武紀(jì)這些企業(yè)一直被卡在“生態(tài)不足”上，客戶嫌性能不夠穩(wěn)，不敢大規(guī)模用。但如果算法能優(yōu)化到DeepSeek這個(gè)程度，硬件壓力會(huì)小很多。

DeepSeek創(chuàng)始人梁文鋒

事實(shí)上，華為和浙大最近已經(jīng)聯(lián)合發(fā)了基于昇騰芯片的DeepSeek-R1-Safe模型，雖然這是另一個(gè)項(xiàng)目，但證明了一件事：國(guó)產(chǎn)芯片能扛住千億級(jí)大模型訓(xùn)練。

不過(guò)業(yè)內(nèi)人也提醒：這還只是“可能”，不是“必然”。國(guó)產(chǎn)芯片真要接住這波機(jī)會(huì)，還得在軟件生態(tài)和穩(wěn)定性上下硬功夫。

總結(jié)開(kāi)放、透明才是AI的未來(lái)

DeepSeek這次登上《自然》封面，不只是一個(gè)人的成功，也不只是一個(gè)公司的成功。它代表中國(guó)AI行業(yè)真正走到了世界前沿。

DeepSeek也證明了三件事：第一，大模型不一定靠燒錢(qián)，算法優(yōu)化能大幅降低成本；第二，AI行業(yè)不能再閉門(mén)吹牛，必須接受同行評(píng)審的檢驗(yàn)；第三，中國(guó)團(tuán)隊(duì)有能力從技術(shù)追隨者變成規(guī)則制定者。

但DeepSeek的價(jià)值不止于“被膜拜”，《人民日?qǐng)?bào)》說(shuō)得好：“它的最大價(jià)值是被超越。”

如果后續(xù)國(guó)產(chǎn)模型都能用更低成本、更透明的方式練出來(lái)，如果國(guó)產(chǎn)芯片能借此打開(kāi)市場(chǎng)，如果AI研發(fā)從此告別“黑箱”走向開(kāi)放，那今天這篇論文，才會(huì)真正變成中國(guó)AI的轉(zhuǎn)折點(diǎn)。

畢竟，梁文鋒自己說(shuō)過(guò)：“中國(guó)AI不能永遠(yuǎn)做跟隨者。”現(xiàn)在，他們真的走到了前沿。

原文標(biāo)題 : 梁文鋒登《自然》封面，曝DeepSeek增量訓(xùn)練成本僅29.4萬(wàn)美元!