訂閱
糾錯(cuò)
加入自媒體

落子“三算盤”,華為押注Token經(jīng)濟(jì)時(shí)代

在“AI Agent元年”的光環(huán)之下,AI Agent賽道是否只是一場(chǎng)虛假繁榮?

內(nèi)容/山南

編輯/詠鵝

校對(duì)/莽夫

在AI應(yīng)用遍地開花的2025年,AI推理這一細(xì)分賽道也因行業(yè)急速發(fā)展而規(guī)模膨脹。

“現(xiàn)在所需的推理計(jì)算量已經(jīng)比大型語(yǔ)言模型剛開始出現(xiàn)時(shí)增加了100倍,而這僅僅是個(gè)開始。”英偉達(dá)首席執(zhí)行官黃仁勛在今年2月時(shí)公開表示。

無獨(dú)有偶,摩根士丹利分析師也預(yù)估,未來幾年美國(guó)超過75%的電力和計(jì)算需求將用于推理。

推理算力需求百倍增長(zhǎng)的背后,是企業(yè)AI應(yīng)用落地的核心邏輯:推理性能直接決定了用戶體驗(yàn)的優(yōu)劣與商業(yè)模式的可行性。正因如此,AI推理這塊蛋糕,成為了基建企業(yè)勢(shì)在必得之利。

華為近期發(fā)布的UCM推理記憶數(shù)據(jù)管理器,被業(yè)界譽(yù)為AI推理技術(shù)的一次重大革命。然而,華為落子AI推理的真正意圖,遠(yuǎn)不止于單一技術(shù)的工具增益,而在于構(gòu)筑一場(chǎng)AI生態(tài)的大棋局。

Part.1 AI步入深水區(qū)推理成增長(zhǎng)奇點(diǎn)

AI浪潮席卷之下,產(chǎn)業(yè)鏈上下游機(jī)遇與挑戰(zhàn)并存,AI推理首當(dāng)其沖,成為重要戰(zhàn)場(chǎng)與增長(zhǎng)爆點(diǎn)。

中信建投最新白皮書揭示顯著趨勢(shì),隨著AI算力消耗從訓(xùn)練向推理的結(jié)構(gòu)性轉(zhuǎn)變,國(guó)內(nèi)算力消耗正快速增長(zhǎng)。以字節(jié)跳動(dòng)為例,其Token消耗量每三個(gè)月近乎翻倍,5月底已達(dá)16.4萬億Token。按此增速,主流云服務(wù)商將很快感受到算力緊張,出現(xiàn)算力缺口——單次Agent任務(wù)平均消耗Token量級(jí)已攀升至10萬量級(jí)。

然而,新興市場(chǎng)的定價(jià)邏輯往往異于常理,并不完全由需求決定價(jià)格。面對(duì)大模型藍(lán)海,巨頭、創(chuàng)企、運(yùn)營(yíng)商…各類企業(yè)蜂擁而入,ToB市場(chǎng)也沒能逃脫卷價(jià)格的魔咒。

自去年5月先是阿里云打響大模型降價(jià)第一槍,后百度旋即宣布文心兩大主力模型ERNIE Speed和ERNIE Lite全面免費(fèi),再至今年6月,豆包大模型1.6發(fā)布并進(jìn)一步降低價(jià)格門檻壓至2.6元/百萬Tokens。

價(jià)格廝殺背后,Token的處理成本和質(zhì)量成為大模型行業(yè)競(jìng)爭(zhēng)的關(guān)鍵要素,AI推理能力則成為撬動(dòng)增長(zhǎng)的關(guān)鍵奇點(diǎn)。MiniMax創(chuàng)始人、CEO閆俊杰斷言:“在接下來一兩年之內(nèi),最好模型的推理成本可能還能再降低一個(gè)數(shù)量級(jí)。”

但技術(shù)差距不容忽視。據(jù)華為數(shù)據(jù)顯示,目前國(guó)外主要大模型(OpenAI O3-mini、Google Gemini等)服務(wù)的單用戶輸出速度已達(dá)200 tokens/s區(qū)間(時(shí)延5ms),而國(guó)內(nèi)普遍低于60 tokens/s(時(shí)延50—100ms)。

OpenAI O3 mini每秒輸出的Token數(shù)約為國(guó)內(nèi)某開源大模型的10倍,用戶體驗(yàn)差異立現(xiàn),直接感受到OpenAI的回答速度比國(guó)內(nèi)大模型要快很多。由此可見,中國(guó)AI推理市場(chǎng)還有很大的上升空間。

正如華為公司副總裁、數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰所言:“AI時(shí)代,模型訓(xùn)練、推理效率與體驗(yàn)的量綱都以Token數(shù)為表征,Token經(jīng)濟(jì)已經(jīng)到來”。

搶占Token時(shí)代先機(jī),是華為布局AI推理最顯性的戰(zhàn)略落子,這是華為的第一個(gè)算盤。

Part.2 華為UCM AI推理能力橫向剖析

聚焦華為最新推出的AI推理技術(shù)UCM,其核心競(jìng)爭(zhēng)力與市場(chǎng)定位究竟如何?

華為UCM是一款以KV Cache(鍵值緩存)為中心的推理加速套件,融合多類型緩存加速算法工具,可以分級(jí)管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),從而降低每個(gè)Token的推理成本。

通易而言,華為UCM就像是廚房的智能調(diào)度系統(tǒng),可以把廚師做菜時(shí)需要的各種食材清單(KV Cache),用不同大小的白板、活頁(yè)夾和文件柜(多級(jí)緩存)分門別類存放,再搭配各種記憶管理工具(緩存算法工具),使大廚能輕松記住超長(zhǎng)的菜單(擴(kuò)大上下文),從而出菜更快(低延遲),能夠服務(wù)更多客人(高吞吐),同時(shí)還更省人力(降低每個(gè)Token的成本)。最終,顧客(使用AI)的體驗(yàn)就是上菜快、服務(wù)好、價(jià)格實(shí)惠。

和業(yè)界相比,華為UCM的差異化優(yōu)勢(shì)體現(xiàn)在從單點(diǎn)算力模組轉(zhuǎn)向系統(tǒng)級(jí)優(yōu)化。華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰表示,業(yè)界有很多開源方案有類似的方向,有的是做了其中某一層或某一些組件,但是并未看到可商用的端到端完整方案,而UCM是第一個(gè)全流程、全場(chǎng)景且可演進(jìn)的系統(tǒng)性方案。

這也標(biāo)志著,AI推理引擎從依賴單點(diǎn)算力模組,向整體系統(tǒng)效能優(yōu)化的戰(zhàn)略轉(zhuǎn)變。

此外UCM也是封鎖之下的應(yīng)對(duì)之策。美國(guó)自2025年1月2日起全面禁止向中國(guó)出口HBM2E及以上級(jí)別高帶寬內(nèi)存。這對(duì)依賴先進(jìn)硬件的AI發(fā)展構(gòu)成發(fā)展障礙。

與普通內(nèi)存(DDR)相比,HBM的傳送帶寬度是其10倍以上,并且能實(shí)現(xiàn)數(shù)千條微型通道并行傳輸,但弊端就是費(fèi)用十分高昂。在AI服務(wù)器中,HBM的成本占比約為20%至30%。

而UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中實(shí)現(xiàn)按需流動(dòng),同時(shí)融合多種稀疏注意力算法實(shí)現(xiàn)存算深度協(xié)同,使長(zhǎng)序列場(chǎng)景下TPS(每秒處理Token數(shù))提升2至22倍,從而降低每個(gè)Token的推理成本。

外媒TEKEDIA報(bào)道指出,UCM的“核心訴求”和服務(wù)賣點(diǎn)很明確:如果軟件能更充分地挖掘普通內(nèi)存的性能潛力,那么中國(guó)的供應(yīng)商(如華為等廠商)就能在不那么依賴稀缺且昂貴的高帶寬內(nèi)存(HBM)的情況下,依然提供有競(jìng)爭(zhēng)力的AI推理服務(wù)。

“這一點(diǎn)至關(guān)重要。因?yàn)槿騂BM市場(chǎng)正在迅猛增長(zhǎng)——今年規(guī)模約340億美元,預(yù)計(jì)到2030年將達(dá)980億美元——而其供應(yīng)基本被SK海力士、三星和美光這三家非中國(guó)企業(yè)壟斷,完全不受中國(guó)控制。”

可見UCM的意義遠(yuǎn)不止在于提升AI推理效率,其更深層的戰(zhàn)略意圖是為華為在內(nèi)的廠商,減少對(duì)HBM內(nèi)存的依賴,構(gòu)建一條降低關(guān)鍵硬件對(duì)外依存度、增強(qiáng)供應(yīng)鏈韌性與自主可控能力的技術(shù)路徑。

這是華為在復(fù)雜國(guó)際環(huán)境下的第二個(gè)算盤。

Part.3 開源筑基“產(chǎn)業(yè)帝國(guó)”輪廓初顯

“大多數(shù)初創(chuàng)公司在早期階段依賴于最先進(jìn)的模型,這些模型通常都是封閉的生態(tài)系統(tǒng),擁有自己的推理機(jī)制,但今后會(huì)有越來越多的企業(yè)開始尋找替代方案,例如訓(xùn)練自己的模型,或者使用開源模型來緩解部分經(jīng)濟(jì)壓力。目前市面上已經(jīng)有很多強(qiáng)大的開源模型,未來還會(huì)有更多。”Nebius首席技術(shù)官Danila Shtan表示。

華為宣布計(jì)劃于今年9月正式開源UCM,屆時(shí)將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。

這一開源舉措,將吸引更多的開發(fā)者和企業(yè)參與到AI推理生態(tài)的建設(shè)中來,促進(jìn)框架、存儲(chǔ)、GPU廠商共建和成熟化整套機(jī)制,激發(fā)創(chuàng)新活力,加速技術(shù)的迭代和優(yōu)化。

不過,UCM開源也絕非賠錢“搞慈善”,當(dāng)中國(guó)乃至全球的存儲(chǔ)廠商、云服務(wù)商甚至競(jìng)爭(zhēng)對(duì)手都跑在廣泛采用UCM時(shí),一個(gè)基于華為技術(shù)棧、自主可控的AI推理基礎(chǔ)設(shè)施層將強(qiáng)勢(shì)崛起。屆時(shí),一張由華為主導(dǎo)、覆蓋算力硬件、推理框架、應(yīng)用落地全棧的超級(jí)生態(tài)網(wǎng)絡(luò)將浮出水面,新的“產(chǎn)業(yè)帝國(guó)”已初見輪廓。

據(jù)不完全統(tǒng)計(jì),圍繞UCM展開的AI推理生態(tài)“關(guān)鍵盟友”包括但不限于:算力硬件層的拓維信息、神州數(shù)碼、軟通動(dòng)力、恒為科技等;推理框架層的華海誠(chéng)科、格靈深瞳、寒武紀(jì)、瀾起科技等;應(yīng)用落地層的潤(rùn)達(dá)醫(yī)療、賽意信息、云鼎科技和高瀾股份等。

開源亦是生態(tài)投資。通過賦能伙伴、壯大生態(tài),華為將收獲更廣泛的應(yīng)用場(chǎng)景反饋、更強(qiáng)大的標(biāo)準(zhǔn)話語(yǔ)權(quán)以及更穩(wěn)固的市場(chǎng)基礎(chǔ)。這種“以商業(yè)成功反哺技術(shù)進(jìn)化”的良性循環(huán),何嘗不是一種“以戰(zhàn)養(yǎng)戰(zhàn)”的智慧?而這也是華為押注AI推理的第三個(gè)算盤。

技術(shù)革新的車輪滾滾向前,模型的“思考”與推理能力只會(huì)愈發(fā)強(qiáng)大。華為押注AI推理的“三個(gè)算盤”,即搶占Token經(jīng)濟(jì)先機(jī)、突破HBM封鎖、構(gòu)建自主生態(tài)已清晰落子。而對(duì)于其他AI廠商而言,構(gòu)建自主、強(qiáng)大且開放的技術(shù)生態(tài),同樣是不容遲疑的戰(zhàn)略任務(wù)。

留給中國(guó)企業(yè)的窗口期正在收窄,構(gòu)建核心競(jìng)爭(zhēng)力的戰(zhàn)役,已然打響。

END

       原文標(biāo)題 : 落子“三算盤”,華為押注Token經(jīng)濟(jì)時(shí)代

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)