123,123,123

趨勢丨把大模型刻進AI芯片，極致構(gòu)思背后看迭代周期博弈

2026-03-09 10:58

前言：

2026年2月，一家名為Taalas的多倫多初創(chuàng)公司,宣布完成1.69億美元新一輪融資，累計融資約2.19億美元，并同步亮相其首款芯片HC1。

Taalas的MSIC路線“炸掉內(nèi)存墻”

HC1運行Llama 3.1 8B的速度達到驚人的17,000 tokens/秒，是英偉達B200的數(shù)十倍，成本卻僅為后者的1/20。這場“模型即芯片”的豪賭，撕開了AI算力市場的一道裂痕。

自1945年馮·諾依曼架構(gòu)確立以來，計算與存儲分離的設(shè)計統(tǒng)治了芯片行業(yè)八十年——數(shù)據(jù)需要不斷在內(nèi)存和計算單元之間“搬運”，這道“內(nèi)存墻”成為AI算力的核心瓶頸。Taalas發(fā)明了“Mask ROM recall fabric + SRAM”架構(gòu)，將Llama 3.1 8B的數(shù)十億參數(shù)通過掩模ROM固化在硅片金屬層中，同時保留部分SRAM區(qū)域用于處理KV緩存和LoRA微調(diào)。

HC1基于臺積電6nm工藝，面積815mm²，集成了530億顆晶體管，功耗僅200W左右，10張卡組成的系統(tǒng)也只需2.5千瓦空氣冷卻。Taalas CEO Ljubisa Bajic曾是AMD與英偉達架構(gòu)師，也是明星芯片公司Tenstorrent的創(chuàng)始人，他帶領(lǐng)25人團隊、僅用3000萬美元研發(fā)成本，兩年半時間造出了這顆“反常識”的芯片。

固化硬件的代價與“刻舟求劍”的風(fēng)險

上世紀(jì)90年代末，3dfx Voodoo顯卡曾是3D圖形領(lǐng)域的霸主，它將3D渲染的光柵步驟做成“固定管線”刻死在電路中。但到了1999年，當(dāng)開發(fā)者開始探索可編程著色器以實現(xiàn)更豐富的3D效果時，Voodoo因硬件固化無法支持新功能，最終被英偉達GeForce取代，公司走向破產(chǎn)。

2016-2018年的AI芯片潮中，一大批初創(chuàng)公司針對CNN（卷積神經(jīng)網(wǎng)絡(luò)）設(shè)計了專門的“卷積加速引擎”，在人臉識別、自動駕駛等圖像任務(wù)中表現(xiàn)搶眼。但2017年《Attention is All You Need》發(fā)布后，Transformer架構(gòu)徹底改變了AI的底層數(shù)學(xué)邏輯，那些將CNN固化在芯片里的企業(yè)，因缺乏通用矩陣計算能力而黯然退場。

對比這兩個案例可以發(fā)現(xiàn)，硬件固化的程度決定了風(fēng)險等級：Voodoo固化的是渲染管線，雖畫面落后但依然能用；CNN芯片固化的是算法，適用場景大幅收窄但仍有價值；而Taalas固化的是特定的模型版本——一旦模型更新，芯片便可能直接淪為“電子垃圾”。模型換了，芯片就是廢鐵，這種極致綁定讓Taalas押注于一個前提：AI算法已經(jīng)進入“平臺期”，架構(gòu)不再劇烈變化。

專用芯片在垂直場景中的生存邏輯

盡管風(fēng)險極高，但Taalas并非在追逐一個虛無的夢想。在真實的商業(yè)世界里，并非所有場景都需要一個通曉萬物的“通用神靈”。大量垂直場景需要的，是一個極其穩(wěn)定、便宜、速度極快的“電子牛馬”，把手頭那件事干到極致。

Taalas的HC1精準(zhǔn)命中了三類對延遲敏感、模型版本穩(wěn)定的應(yīng)用場景：

企業(yè)專用模型：金融、醫(yī)療、法律等行業(yè)長期使用固定版本的私有化模型，推理成本降至傳統(tǒng)方案的1/266，足以讓許多此前不可行的AI應(yīng)用具備商業(yè)價值。

邊緣推理：人形機器人、自動駕駛汽車、智能手機等設(shè)備對實時性要求極高，且無需運行多模型。汽車遇到臨時修路等突發(fā)狀況時，需要低于1毫秒的“本能推理反射”，固化了大模型的專用芯片能實現(xiàn)本地極速響應(yīng)。

大規(guī)�？头�電商、運營商的智能客服常年運行標(biāo)準(zhǔn)化對話模型，HC1的“秒級響應(yīng)”能顯著提升用戶體驗，同時將運營成本削減90%以上。

這種“互補而非替代”的定位，為Taalas在英偉達的陰影下找到了生存空間。

模型迭代與硬件交付的時間賽跑

然而，定位清晰并不能消除商業(yè)模式的核心不確定性——模型迭代周期與芯片開發(fā)周期之間的巨大錯位。

如今，開源大模型的進化是以“月”甚至“周”為單位的。但一顆先進制程的芯片，從架構(gòu)設(shè)計到流片量產(chǎn)，通常需要18到24個月。當(dāng)芯片走下產(chǎn)線時，它所“凍結(jié)”的模型在日新月異的算法世界里，將淪為“古董”，且一旦固化模型存在致命缺陷，整批芯片只能報廢。

Taalas對此給出的防守策略是“極速物理迭代”。他們與臺積電合作開發(fā)了“兩層金屬”方案——改變模型不需要重新設(shè)計整個底層硅片，只需更改芯片最上層的兩層金屬掩模，將新模型的硬件化周期壓縮到兩個月左右。同時，HC1保留了LoRA微調(diào)的支持，企業(yè)可以在物理大模型外部掛載小型的“知識補丁”來調(diào)整特定任務(wù)表現(xiàn)。

從“通用主導(dǎo)”走向“通用與專用并存”

在推理成為AI算力新主戰(zhàn)場的2026年，市場正在從“通用主導(dǎo)”向“通用與專用并存”的分裂格局演進。

英偉達通過200億美元收購Groq的推理技術(shù)，已釋放出“通用巨頭向?qū)Ｓ觅惖劳讌f(xié)”的信號。與此同時，Etched選擇固化Transformer架構(gòu)，Groq采用純SRAM的LPU路線，Cerebras用晶圓級引擎突破內(nèi)存墻，Tenstorrent擁抱RISC-V的可編程架構(gòu)——多元技術(shù)路線各顯神通，共同蠶食著曾經(jīng)固若金湯的推理市場。

未來的AI算力版圖，或許將呈現(xiàn)“三分天下”的格局：英偉達GPU和通用加速器主導(dǎo)，用于探索AGI的智力邊界，處理最復(fù)雜、最多變的未知任務(wù)；Taalas這類“物理硬化”芯片滲透進每一個路燈、家電、工業(yè)機器人中；谷歌TPU、微軟Azure Maia等云廠商自研芯片深耕云內(nèi)部署。

結(jié)語：

Taalas的HC1證明，當(dāng)大模型變成像電阻、電容一樣廉價且隨處可見的電子元器件時，AI真正的大爆發(fā)才算拉開大幕。

網(wǎng)絡(luò)援引：

鈦媒體：《1.69億融資押注專用芯片：Taalas要靠“去GPU化”改寫AI算力格局》

維科網(wǎng)：《挑戰(zhàn)英偉達算力霸權(quán)？多倫多一家創(chuàng)企將大模型“刻進”芯片》

芯智訊：《17000 Tokens/s！48倍碾壓英偉達B200！這家把大模型“刻”進芯片的公司，什么來頭？》

搜狐：《全球芯片圈炸鍋：這個“瘋子”把模型刻進硅片，80年架構(gòu)說廢就廢》

原文標(biāo)題 : 趨勢丨把大模型刻進AI芯片，極致構(gòu)思背后看迭代周期博弈