123,123

落子“三算盤”，華為押注Token經(jīng)濟時代

2025-08-18 15:37

正見TrueView

關注

在“AI Agent元年”的光環(huán)之下，AI Agent賽道是否只是一場虛假繁榮？

內(nèi)容/山南

編輯/詠鵝

校對/莽夫

在AI應用遍地開花的2025年，AI推理這一細分賽道也因行業(yè)急速發(fā)展而規(guī)模膨脹。

“現(xiàn)在所需的推理計算量已經(jīng)比大型語言模型剛開始出現(xiàn)時增加了100倍，而這僅僅是個開始。”英偉達首席執(zhí)行官黃仁勛在今年2月時公開表示。

無獨有偶，摩根士丹利分析師也預估，未來幾年美國超過75%的電力和計算需求將用于推理。

推理算力需求百倍增長的背后，是企業(yè)AI應用落地的核心邏輯：推理性能直接決定了用戶體驗的優(yōu)劣與商業(yè)模式的可行性。正因如此，AI推理這塊蛋糕，成為了基建企業(yè)勢在必得之利。

華為近期發(fā)布的UCM推理記憶數(shù)據(jù)管理器，被業(yè)界譽為AI推理技術的一次重大革命。然而，華為落子AI推理的真正意圖，遠不止于單一技術的工具增益，而在于構筑一場AI生態(tài)的大棋局。

Part.1 AI步入深水區(qū)推理成增長奇點

AI浪潮席卷之下，產(chǎn)業(yè)鏈上下游機遇與挑戰(zhàn)并存，AI推理首當其沖，成為重要戰(zhàn)場與增長爆點。

中信建投最新白皮書揭示顯著趨勢，隨著AI算力消耗從訓練向推理的結構性轉變，國內(nèi)算力消耗正快速增長。以字節(jié)跳動為例，其Token消耗量每三個月近乎翻倍，5月底已達16.4萬億Token。按此增速，主流云服務商將很快感受到算力緊張，出現(xiàn)算力缺口——單次Agent任務平均消耗Token量級已攀升至10萬量級。

然而，新興市場的定價邏輯往往異于常理，并不完全由需求決定價格。面對大模型藍海，巨頭、創(chuàng)企、運營商…各類企業(yè)蜂擁而入，ToB市場也沒能逃脫卷價格的魔咒。

自去年5月先是阿里云打響大模型降價第一槍，后百度旋即宣布文心兩大主力模型ERNIE Speed和ERNIE Lite全面免費，再至今年6月，豆包大模型1.6發(fā)布并進一步降低價格門檻壓至2.6元/百萬Tokens。

價格廝殺背后，Token的處理成本和質(zhì)量成為大模型行業(yè)競爭的關鍵要素，AI推理能力則成為撬動增長的關鍵奇點。MiniMax創(chuàng)始人、CEO閆俊杰斷言：“在接下來一兩年之內(nèi)，最好模型的推理成本可能還能再降低一個數(shù)量級。”

但技術差距不容忽視。據(jù)華為數(shù)據(jù)顯示，目前國外主要大模型（OpenAI O3-mini、Google Gemini等）服務的單用戶輸出速度已達200 tokens/s區(qū)間（時延5ms），而國內(nèi)普遍低于60 tokens/s（時延50—100ms）。

OpenAI O3 mini每秒輸出的Token數(shù)約為國內(nèi)某開源大模型的10倍，用戶體驗差異立現(xiàn)，直接感受到OpenAI的回答速度比國內(nèi)大模型要快很多。由此可見，中國AI推理市場還有很大的上升空間。

正如華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰所言：“AI時代，模型訓練、推理效率與體驗的量綱都以Token數(shù)為表征，Token經(jīng)濟已經(jīng)到來”。

搶占Token時代先機，是華為布局AI推理最顯性的戰(zhàn)略落子，這是華為的第一個算盤。

Part.2 華為UCM AI推理能力橫向剖析

聚焦華為最新推出的AI推理技術UCM，其核心競爭力與市場定位究竟如何？

華為UCM是一款以KV Cache（鍵值緩存）為中心的推理加速套件，融合多類型緩存加速算法工具，可以分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù)，擴大推理上下文窗口，以實現(xiàn)高吞吐、低時延的推理體驗，從而降低每個Token的推理成本。

通易而言，華為UCM就像是廚房的智能調(diào)度系統(tǒng)，可以把廚師做菜時需要的各種食材清單（KV Cache），用不同大小的白板、活頁夾和文件柜（多級緩存）分門別類存放，再搭配各種記憶管理工具（緩存算法工具），使大廚能輕松記住超長的菜單（擴大上下文），從而出菜更快（低延遲），能夠服務更多客人（高吞吐），同時還更省人力（降低每個Token的成本）。最終，顧客（使用AI）的體驗就是上菜快、服務好、價格實惠。

和業(yè)界相比，華為UCM的差異化優(yōu)勢體現(xiàn)在從單點算力模組轉向系統(tǒng)級優(yōu)化。華為數(shù)據(jù)存儲產(chǎn)品線AI存儲首席架構師李國杰表示，業(yè)界有很多開源方案有類似的方向，有的是做了其中某一層或某一些組件，但是并未看到可商用的端到端完整方案，而UCM是第一個全流程、全場景且可演進的系統(tǒng)性方案。

這也標志著，AI推理引擎從依賴單點算力模組，向整體系統(tǒng)效能優(yōu)化的戰(zhàn)略轉變。

此外UCM也是封鎖之下的應對之策。美國自2025年1月2日起全面禁止向中國出口HBM2E及以上級別高帶寬內(nèi)存。這對依賴先進硬件的AI發(fā)展構成發(fā)展障礙。

與普通內(nèi)存（DDR）相比，HBM的傳送帶寬度是其10倍以上，并且能實現(xiàn)數(shù)千條微型通道并行傳輸，但弊端就是費用十分高昂。在AI服務器中，HBM的成本占比約為20%至30%。

而UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲介質(zhì)中實現(xiàn)按需流動，同時融合多種稀疏注意力算法實現(xiàn)存算深度協(xié)同，使長序列場景下TPS（每秒處理Token數(shù)）提升2至22倍，從而降低每個Token的推理成本。

外媒TEKEDIA報道指出，UCM的“核心訴求”和服務賣點很明確：如果軟件能更充分地挖掘普通內(nèi)存的性能潛力，那么中國的供應商（如華為等廠商）就能在不那么依賴稀缺且昂貴的高帶寬內(nèi)存（HBM）的情況下，依然提供有競爭力的AI推理服務。

“這一點至關重要。因為全球HBM市場正在迅猛增長——今年規(guī)模約340億美元，預計到2030年將達980億美元——而其供應基本被SK海力士、三星和美光這三家非中國企業(yè)壟斷，完全不受中國控制。”

可見UCM的意義遠不止在于提升AI推理效率，其更深層的戰(zhàn)略意圖是為華為在內(nèi)的廠商，減少對HBM內(nèi)存的依賴，構建一條降低關鍵硬件對外依存度、增強供應鏈韌性與自主可控能力的技術路徑。

這是華為在復雜國際環(huán)境下的第二個算盤。

Part.3 開源筑基“產(chǎn)業(yè)帝國”輪廓初顯

“大多數(shù)初創(chuàng)公司在早期階段依賴于最先進的模型，這些模型通常都是封閉的生態(tài)系統(tǒng)，擁有自己的推理機制，但今后會有越來越多的企業(yè)開始尋找替代方案，例如訓練自己的模型，或者使用開源模型來緩解部分經(jīng)濟壓力。目前市面上已經(jīng)有很多強大的開源模型，未來還會有更多。”Nebius首席技術官Danila Shtan表示。

華為宣布計劃于今年9月正式開源UCM，屆時將在魔擎社區(qū)首發(fā)，后續(xù)逐步貢獻給業(yè)界主流推理引擎社區(qū)，并共享給業(yè)內(nèi)所有Share Everything（共享架構）存儲廠商和生態(tài)伙伴。

這一開源舉措，將吸引更多的開發(fā)者和企業(yè)參與到AI推理生態(tài)的建設中來，促進框架、存儲、GPU廠商共建和成熟化整套機制，激發(fā)創(chuàng)新活力，加速技術的迭代和優(yōu)化。

不過，UCM開源也絕非賠錢“搞慈善”，當中國乃至全球的存儲廠商、云服務商甚至競爭對手都跑在廣泛采用UCM時，一個基于華為技術棧、自主可控的AI推理基礎設施層將強勢崛起。屆時，一張由華為主導、覆蓋算力硬件、推理框架、應用落地全棧的超級生態(tài)網(wǎng)絡將浮出水面，新的“產(chǎn)業(yè)帝國”已初見輪廓。

據(jù)不完全統(tǒng)計，圍繞UCM展開的AI推理生態(tài)“關鍵盟友”包括但不限于：算力硬件層的拓維信息、神州數(shù)碼、軟通動力、恒為科技等；推理框架層的華海誠科、格靈深瞳、寒武紀、瀾起科技等；應用落地層的潤達醫(yī)療、賽意信息、云鼎科技和高瀾股份等。

開源亦是生態(tài)投資。通過賦能伙伴、壯大生態(tài)，華為將收獲更廣泛的應用場景反饋、更強大的標準話語權以及更穩(wěn)固的市場基礎。這種“以商業(yè)成功反哺技術進化”的良性循環(huán)，何嘗不是一種“以戰(zhàn)養(yǎng)戰(zhàn)”的智慧？而這也是華為押注AI推理的第三個算盤。

技術革新的車輪滾滾向前，模型的“思考”與推理能力只會愈發(fā)強大。華為押注AI推理的“三個算盤”，即搶占Token經(jīng)濟先機、突破HBM封鎖、構建自主生態(tài)已清晰落子。而對于其他AI廠商而言，構建自主、強大且開放的技術生態(tài)，同樣是不容遲疑的戰(zhàn)略任務。

留給中國企業(yè)的窗口期正在收窄，構建核心競爭力的戰(zhàn)役，已然打響。

END

原文標題 : 落子“三算盤”，華為押注Token經(jīng)濟時代