訂閱
糾錯(cuò)
加入自媒體

英偉達(dá)出手,SRAM重回C位

圖片

過(guò)去兩年,全球半導(dǎo)體產(chǎn)業(yè)的聚光燈始終打在HBM身上。這種通過(guò)硅通孔技術(shù)垂直堆疊的DRAM,伴隨英偉達(dá)GPU的大規(guī)模出貨,完成了從一個(gè)小眾產(chǎn)品到供不應(yīng)求的“硬通貨”的蛻變。然而,就在2026年的春天,一個(gè)看似陳舊的技術(shù)名詞——SRAM(靜態(tài)隨機(jī)存取存儲(chǔ)器),正在以驚人的速度重回舞臺(tái)中央。

要理解這場(chǎng)復(fù)權(quán)的底層邏輯,必須先厘清存儲(chǔ)層級(jí)的基本分工。在當(dāng)代計(jì)算架構(gòu)中,存儲(chǔ)系統(tǒng)呈現(xiàn)為一座金字塔:塔尖是集成在CPU、GPU計(jì)算核心附近的片上SRAM,具備納秒級(jí)訪問(wèn)時(shí)延與高度確定性的帶寬特性,帶寬極高但容量極小、成本極高;向下依次是HBM、DRAM和SSD,每一級(jí)的容量遞增,但時(shí)延和帶寬的不確定性也隨之增加。在過(guò)去以訓(xùn)練為主的時(shí)代,大容量吞吐比納秒級(jí)響應(yīng)更重要,因此HBM占據(jù)了主導(dǎo)。但當(dāng)AI應(yīng)用從實(shí)驗(yàn)室走向普羅大眾,當(dāng)用戶體驗(yàn)的標(biāo)尺從“模型有多大”轉(zhuǎn)向“回答有多快”,這座金字塔的受力結(jié)構(gòu)正在發(fā)生深刻變化。

圖片

3月17日,加州圣何塞SAP中心的舞臺(tái)上,身著標(biāo)志性黑色皮夾克的黃仁勛用兩個(gè)半小時(shí)的演講,正式為這一趨勢(shì)寫下了注腳。在這場(chǎng)備受矚目的GTC 2026主題演講中,英偉達(dá)正式發(fā)布了集成Groq LPU架構(gòu)的推理芯片,并披露了令人矚目的技術(shù)細(xì)節(jié):最新Groq 3 LPU單芯片集成500MB片上SRAM,存儲(chǔ)帶寬高達(dá)150TB/s,而作為對(duì)比,主流GPU的片外HBM4帶寬約為22TB/s。

更令人震撼的是其機(jī)架級(jí)方案:Groq 3 LPX機(jī)架搭載256個(gè)LPU處理器,提供128GB片上SRAM和高達(dá)40PB/s的推理加速帶寬,并通過(guò)每個(gè)機(jī)架640TB/s的專用擴(kuò)展接口將這些芯片連接在一起。黃仁勛在現(xiàn)場(chǎng)宣布,這款芯片將由三星電子代工,目前已進(jìn)入生產(chǎn)階段,預(yù)計(jì)今年下半年開始出貨。更令業(yè)界震動(dòng)的是,OpenAI已確定成為該芯片的首批客戶,并承諾投入300億美元采購(gòu)相關(guān)推理算力。這不僅是英偉達(dá)在AI芯片之路上的一次技術(shù)路線微調(diào),更是一個(gè)清晰的信號(hào):AI計(jì)算的需求結(jié)構(gòu)正在發(fā)生根本性位移,推理已取代訓(xùn)練,成為定義下一代芯片架構(gòu)的決定性力量。

01

SRAM如何重塑AI推理體驗(yàn)

要理解SRAM為何在此時(shí)爆發(fā),必須首先厘清AI工作負(fù)載的歷史性轉(zhuǎn)折。過(guò)去五年,AI產(chǎn)業(yè)的中心矛盾是“算力饑渴”,即如何用更多的GPU堆出更大的模型。彼時(shí),無(wú)論是OpenAI還是Google,核心訴求都是用最短的時(shí)間完成海量數(shù)據(jù)的預(yù)訓(xùn)練。在那個(gè)階段,HBM憑借其極高的容量和數(shù)據(jù)傳輸速率,完美地充當(dāng)了GPU計(jì)算核心的“糧倉(cāng)”,盡管存在延遲,但吞吐量是第一要?jiǎng)?wù)。

然而,德勤在《2026科技、傳媒和電信行業(yè)預(yù)測(cè)》中斷言,到2026年,“推理”將占據(jù)全部AI計(jì)算能力的三分之二。當(dāng)AI Agents開始承擔(dān)復(fù)雜的多步驟任務(wù),當(dāng)代碼生成工具需要實(shí)時(shí)響應(yīng)用戶的每一次按鍵,用戶體驗(yàn)的衡量標(biāo)尺發(fā)生了翻天覆地的變化。用戶不再關(guān)心模型訓(xùn)練了多久,只關(guān)心提問(wèn)后多久能看到第一個(gè)字(Time-to-First-Token),以及文字生成是否流暢無(wú)卡頓(尾時(shí)延)。

這正是Groq投資人Gavin Baker所強(qiáng)調(diào)的“推理拆分”:模型處理提示詞的prefill階段依然需要GPU的大規(guī)模并行算力,而逐字生成回復(fù)的decode階段,瓶頸早已不在算力,而在內(nèi)存帶寬。傳統(tǒng)GPU的困境在于,其海量參數(shù)存放在片外的HBM中。每生成一個(gè)token,計(jì)算核心都需要穿越復(fù)雜的封裝和互連線路去HBM中搬運(yùn)一次權(quán)重。這種“遠(yuǎn)距離運(yùn)輸”在prefill階段或許可以容忍,但在需要串行輸出成百上千個(gè)token的decode階段,卻造成了巨大的延遲和能耗浪費(fèi)。

在大模型應(yīng)用中,相比依賴外置HBM,SRAM可顯著降低權(quán)重與激活數(shù)據(jù)的訪存延遲與抖動(dòng),從而改善Time-to-First-Token與尾時(shí)延表現(xiàn)。Groq和Cerebras兩家明星創(chuàng)業(yè)公司正是抓住了這一技術(shù)痛點(diǎn),推出了基于SRAM的AI芯片。當(dāng)新一代Groq LPU將片上帶寬提升至HBM的7倍時(shí),其意義不僅是數(shù)字上的領(lǐng)先,而是從根本上改變了推理的體驗(yàn)邊界。以Llama 3.3 70B模型為例,根據(jù)Artificial Analysis等獨(dú)立基準(zhǔn)測(cè)試,Groq平臺(tái)在不同上下文長(zhǎng)度下能維持200-300+ token/s的穩(wěn)定推理速度,顯著優(yōu)于傳統(tǒng)GPU推理平臺(tái)。這種帶寬的確定性和時(shí)延的可預(yù)測(cè)性,對(duì)于構(gòu)建實(shí)時(shí)交互系統(tǒng)而言至關(guān)重要。

而Cerebras則走得更遠(yuǎn)。根據(jù)Cerebras官網(wǎng)信息,其晶圓級(jí)引擎3(WSE-3)芯片集成了高達(dá)44GB的片上SRAM,片上存儲(chǔ)帶寬達(dá)到驚人的21 PB/s。這種將整片晶圓做成一顆芯片的激進(jìn)設(shè)計(jì),使得海量計(jì)算核心與海量SRAM之間的數(shù)據(jù)交換幾乎不存在瓶頸。在OpenAI GPT-OSS 120B推理任務(wù)中,Cerebras實(shí)現(xiàn)了超過(guò)3000 tokens/s的輸出速度,較主流GPU云推理快約15倍。如果說(shuō)Groq證明了SRAM架構(gòu)在單卡推理上的效率優(yōu)勢(shì),Cerebras則展示了當(dāng)SRAM容量足夠大時(shí),推理速度可以逼近何種極限。SRAM就像放在CEO辦公桌上的便簽紙,無(wú)需等待秘書從檔案室調(diào)取文件,抬手即可獲取。這種“納秒級(jí)”的響應(yīng)速度,對(duì)于構(gòu)建真正具備實(shí)時(shí)交互感的AI Agent而言,是致命的競(jìng)爭(zhēng)優(yōu)勢(shì)。

02

英偉達(dá)的“鈔能力”與SRAM的回歸

英偉達(dá)顯然洞察到了這一范式轉(zhuǎn)移的風(fēng)險(xiǎn)。盡管其在訓(xùn)練市場(chǎng)占據(jù)絕對(duì)統(tǒng)治地位,但在低延遲推理這一細(xì)分戰(zhàn)場(chǎng)上,Groq和Cerebras等創(chuàng)業(yè)公司正憑借SRAM架構(gòu)撕開裂縫。如果任由這種趨勢(shì)發(fā)展,未來(lái)數(shù)據(jù)中心可能會(huì)演變?yōu)?ldquo;GPU做訓(xùn)練、LPU做推理”的雙頭格局,英偉達(dá)的統(tǒng)治版圖將被從邊緣蠶食。

去年12月,英偉達(dá)斥資200億美元獲得Groq知識(shí)產(chǎn)權(quán)的非獨(dú)家授權(quán),其中包括其語(yǔ)言處理單元(LPU)和配套軟件庫(kù),并吸納了Groq核心工程團(tuán)隊(duì)。這筆交易的戰(zhàn)略意義遠(yuǎn)大于財(cái)務(wù)數(shù)字。它意味著英偉達(dá)承認(rèn),在純粹的串行推理場(chǎng)景中,GPU的架構(gòu)確實(shí)存在短板,而Groq的SRAM方案是目前最好的補(bǔ)丁。

與此同時(shí),SRAM陣營(yíng)的另一極也在快速壯大。根據(jù) Cerebras 官方披露,2026 年 2 月,Cerebras 宣布完成 10 億美元 H 輪融資,估值達(dá)到 230 億美元。更引人注目的是,OpenAI與Cerebras簽署了一份高達(dá)100億美元的合同,部署多達(dá)750兆瓦的定制AI芯片。緊接著在2026年2月,OpenAI推出了首個(gè)運(yùn)行在Cerebras Systems AI加速器上的模型——GPT-5.3-Codex-Spark預(yù)覽版,該模型支持超過(guò)1000 tokens/s的代碼生成響應(yīng)速度,為用戶提供更具交互性的編程體驗(yàn)。這一系列動(dòng)作清晰地表明,頭部大模型廠商已經(jīng)開始為下一代實(shí)時(shí)交互應(yīng)用儲(chǔ)備“SRAM算力”。

根據(jù)GTC 2026上正式發(fā)布的信息,英偉達(dá)并未采用將LPU單元3D堆疊在GPU核心晶圓上的激進(jìn)方案,而是采取了更為務(wù)實(shí)的路線:Groq 3 LPU作為獨(dú)立的推理加速器芯片,與Rubin GPU通過(guò)協(xié)同設(shè)計(jì)的架構(gòu)進(jìn)行組合,共同構(gòu)成Vera Rubin平臺(tái)。云岫資本此前的分析指出,若通過(guò)PCIe等外部接口連接,數(shù)據(jù)傳輸會(huì)引入新的延遲,部分抵消SRAM的優(yōu)勢(shì)。

這意味著未來(lái)的AI芯片將出現(xiàn)復(fù)雜的異構(gòu)內(nèi)存層級(jí):底層是負(fù)責(zé)prefill的計(jì)算晶圓,中間層是通過(guò)3D堆疊提供的巨大SRAM緩存用于高速decode,旁邊則依然通過(guò)CoWoS封裝著大容量的HBM用于存儲(chǔ)海量上下文(KV Cache)。這種設(shè)計(jì)既保留了GPU在并行計(jì)算上的統(tǒng)治力,又吸收了LPU在串行生成上的低延遲優(yōu)勢(shì),同時(shí)還能通過(guò)英偉達(dá)的Dynamo推理框架和KV緩存管理系統(tǒng),智能地路由不同的token請(qǐng)求。

可以說(shuō),SRAM的回歸并非要“殺死”HBM,而是將內(nèi)存層級(jí)推向一個(gè)更精細(xì)化分工的多元時(shí)代。

03

機(jī)遇,來(lái)了

英偉達(dá)的技術(shù)轉(zhuǎn)向,在資本市場(chǎng)上激起了巨大的漣漪,也引發(fā)了一些有趣的誤讀。當(dāng)“英偉達(dá)將推SRAM推理芯片”的消息傳出后,韓國(guó)股市一度劇烈波動(dòng),市場(chǎng)擔(dān)憂SRAM的使用會(huì)減少對(duì)HBM的需求,進(jìn)而沖擊三星和SK海力士的核心業(yè)務(wù)。然而,這種擔(dān)憂很快被專業(yè)機(jī)構(gòu)澄清為誤判。

從物理特性看,SRAM的單元面積是DRAM的5到10倍,每比特成本極高,注定無(wú)法替代HBM作為主內(nèi)存的角色。即便Cerebras的WSE-3集成了44GB SRAM,這已是工程上的奇跡,但要存儲(chǔ)一個(gè)700億參數(shù)模型的全部權(quán)重,仍需要數(shù)百GB的存儲(chǔ)空間,這只能由HBM或DRAM來(lái)承擔(dān)。SRAM的用武之地在于需要極致低延遲的特定場(chǎng)景,比如OpenAI的代碼生成工具,或者未來(lái)的物理AI機(jī)器人——這些場(chǎng)景中,每毫秒的延遲都可能打斷人類的思維流或機(jī)器人的動(dòng)作連續(xù)性。

事實(shí)上,內(nèi)存層級(jí)的細(xì)分反而會(huì)擴(kuò)大整個(gè)市場(chǎng)的總規(guī)模。因?yàn)槲磥?lái)每一個(gè)數(shù)據(jù)中心可能都需要同時(shí)配備用于訓(xùn)練的HBM服務(wù)器和用于實(shí)時(shí)響應(yīng)的SRAM加速卡。HBM負(fù)責(zé)承載模型的“長(zhǎng)期記憶”,而SRAM負(fù)責(zé)處理需要“瞬時(shí)反應(yīng)”的交互任務(wù)。兩者是互補(bǔ)而非替代關(guān)系。韓系存儲(chǔ)巨頭需要警惕的,不是SRAM替代HBM,而是如果SRAM加速卡大規(guī)模部署,GPU的采購(gòu)比例是否會(huì)發(fā)生變化,進(jìn)而影響HBM的搭載率。

此外,當(dāng)推理市場(chǎng)的聚光燈轉(zhuǎn)向SRAM,半導(dǎo)體產(chǎn)業(yè)鏈的受益邏輯也隨之發(fā)生微妙變化。過(guò)去,HBM的繁榮主要利好的是專門從事記憶體制造的廠商。而現(xiàn)在,由于SRAM直接集成在邏輯芯片內(nèi)部,依賴于先進(jìn)邏輯制程,晶圓代工廠的地位被前所未有地凸顯出來(lái)。

在此次GTC 2026上,臺(tái)積電被供應(yīng)鏈明確點(diǎn)名為“受惠第一排”。SRAM作為嵌入式計(jì)算核心的一部分,其設(shè)計(jì)與制造完全依賴于頂尖的邏輯制程工藝。無(wú)論是英偉達(dá)采用N3P制程打造下一代LPU,還是AMD、英特爾以及各大ASIC廠商跟進(jìn)類似的SRAM增強(qiáng)架構(gòu),最終都要回歸到臺(tái)積電的先進(jìn)產(chǎn)線。對(duì)于臺(tái)積電而言,這不僅意味著更高的晶圓平均銷售單價(jià)(因?yàn)樾酒娣e增大、制程更先進(jìn)),更鞏固了其在AI半導(dǎo)體制造領(lǐng)域的核心樞紐地位。

與此同時(shí),中國(guó)臺(tái)灣的存儲(chǔ)供應(yīng)鏈也在這股浪潮中找到了新的敘事空間。過(guò)去,由于其在標(biāo)準(zhǔn)DRAM和HBM領(lǐng)域的份額遠(yuǎn)不及韓系廠商,往往在AI存儲(chǔ)盛宴中扮演陪跑角色。但SRAM路線的興起,為他們打開了一扇窗。此次GTC前后,市場(chǎng)關(guān)注點(diǎn)迅速鎖定了幾家具備想象空間的臺(tái)廠。

華邦電因其具備SRAM量產(chǎn)經(jīng)驗(yàn)而受到關(guān)注,其定制化內(nèi)存(CMS)業(yè)務(wù)中的PSRAM(偽靜態(tài)隨機(jī)存取存儲(chǔ)器),結(jié)合了DRAM的高容量與SRAM的高速接口特性,被視為在成本與性能之間的折中方案 。力積電則通過(guò)其3D AI Foundry策略,展現(xiàn)了在多層晶圓堆疊與高容值中介層技術(shù)上的實(shí)力,具備了承接SRAM相關(guān)代工的潛力 。此外,鈺創(chuàng)的產(chǎn)品線覆蓋38納米、63納米制程的SRAM,容量范圍剛好符合Groq LPU采用的標(biāo)準(zhǔn);而愛普則提供新一代ApSRAM,在功耗和帶寬上實(shí)現(xiàn)倍數(shù)級(jí)提升。

這表明,雖然SRAM的核心制造在臺(tái)積電,但其相關(guān)的IP設(shè)計(jì)、利基型產(chǎn)品供應(yīng)以及先進(jìn)封裝配套,為整個(gè)國(guó)產(chǎn)的半導(dǎo)體生態(tài)帶來(lái)了增量機(jī)會(huì)。

站在此刻回望,SRAM的回歸像是一場(chǎng)技術(shù)的輪回。在半導(dǎo)體歷史上,每一次算力中心的轉(zhuǎn)移,都會(huì)伴隨存儲(chǔ)層級(jí)的重構(gòu)。當(dāng)AI產(chǎn)業(yè)從訓(xùn)練狂飆轉(zhuǎn)入推理深耕,當(dāng)用戶體驗(yàn)的焦點(diǎn)從“模型有多大”轉(zhuǎn)向“回答有多快”,我們正在見證的不僅是英偉達(dá)一家公司的產(chǎn)品迭代,更是一個(gè)時(shí)代的切換。存儲(chǔ)金字塔的頂端,那個(gè)曾經(jīng)因?yàn)槌杀具^(guò)高而被束之高閣的SRAM,正在因?yàn)槿祟悓?duì)實(shí)時(shí)交互的渴望,重新煥發(fā)生機(jī)。

       原文標(biāo)題 : 英偉達(dá)出手,SRAM重回C位

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)