訂閱
糾錯
加入自媒體

趨勢丨把大模型刻進AI芯片,極致構(gòu)思背后看迭代周期博弈

前言:

2026年2月,一家名為Taalas的多倫多初創(chuàng)公司,宣布完成1.69億美元新一輪融資,累計融資約2.19億美元,并同步亮相其首款芯片HC1。

Taalas的MSIC路線“炸掉內(nèi)存墻”

HC1運行Llama 3.1 8B的速度達到驚人的17,000 tokens/秒,是英偉達B200的數(shù)十倍,成本卻僅為后者的1/20。這場“模型即芯片”的豪賭,撕開了AI算力市場的一道裂痕。

自1945年馮·諾依曼架構(gòu)確立以來,計算與存儲分離的設(shè)計統(tǒng)治了芯片行業(yè)八十年——數(shù)據(jù)需要不斷在內(nèi)存和計算單元之間“搬運”,這道“內(nèi)存墻”成為AI算力的核心瓶頸。Taalas發(fā)明了“Mask ROM recall fabric + SRAM”架構(gòu),將Llama 3.1 8B的數(shù)十億參數(shù)通過掩模ROM固化在硅片金屬層中,同時保留部分SRAM區(qū)域用于處理KV緩存和LoRA微調(diào)。

HC1基于臺積電6nm工藝,面積815mm²,集成了530億顆晶體管,功耗僅200W左右,10張卡組成的系統(tǒng)也只需2.5千瓦空氣冷卻。Taalas CEO Ljubisa Bajic曾是AMD與英偉達架構(gòu)師,也是明星芯片公司Tenstorrent的創(chuàng)始人,他帶領(lǐng)25人團隊、僅用3000萬美元研發(fā)成本,兩年半時間造出了這顆“反常識”的芯片。

固化硬件的代價與“刻舟求劍”的風(fēng)險

上世紀(jì)90年代末,3dfx Voodoo顯卡曾是3D圖形領(lǐng)域的霸主,它將3D渲染的光柵步驟做成“固定管線”刻死在電路中。但到了1999年,當(dāng)開發(fā)者開始探索可編程著色器以實現(xiàn)更豐富的3D效果時,Voodoo因硬件固化無法支持新功能,最終被英偉達GeForce取代,公司走向破產(chǎn)。

2016-2018年的AI芯片潮中,一大批初創(chuàng)公司針對CNN(卷積神經(jīng)網(wǎng)絡(luò))設(shè)計了專門的“卷積加速引擎”,在人臉識別、自動駕駛等圖像任務(wù)中表現(xiàn)搶眼。但2017年《Attention is All You Need》發(fā)布后,Transformer架構(gòu)徹底改變了AI的底層數(shù)學(xué)邏輯,那些將CNN固化在芯片里的企業(yè),因缺乏通用矩陣計算能力而黯然退場。

對比這兩個案例可以發(fā)現(xiàn),硬件固化的程度決定了風(fēng)險等級:Voodoo固化的是渲染管線,雖畫面落后但依然能用;CNN芯片固化的是算法,適用場景大幅收窄但仍有價值;而Taalas固化的是特定的模型版本——一旦模型更新,芯片便可能直接淪為“電子垃圾”。模型換了,芯片就是廢鐵,這種極致綁定讓Taalas押注于一個前提:AI算法已經(jīng)進入“平臺期”,架構(gòu)不再劇烈變化。

專用芯片在垂直場景中的生存邏輯

盡管風(fēng)險極高,但Taalas并非在追逐一個虛無的夢想。在真實的商業(yè)世界里,并非所有場景都需要一個通曉萬物的“通用神靈”。大量垂直場景需要的,是一個極其穩(wěn)定、便宜、速度極快的“電子牛馬”,把手頭那件事干到極致。

Taalas的HC1精準(zhǔn)命中了三類對延遲敏感、模型版本穩(wěn)定的應(yīng)用場景:

企業(yè)專用模型:金融、醫(yī)療、法律等行業(yè)長期使用固定版本的私有化模型,推理成本降至傳統(tǒng)方案的1/266,足以讓許多此前不可行的AI應(yīng)用具備商業(yè)價值。

邊緣推理:人形機器人、自動駕駛汽車、智能手機等設(shè)備對實時性要求極高,且無需運行多模型。汽車遇到臨時修路等突發(fā)狀況時,需要低于1毫秒的“本能推理反射”,固化了大模型的專用芯片能實現(xiàn)本地極速響應(yīng)。

大規(guī)?头電商、運營商的智能客服常年運行標(biāo)準(zhǔn)化對話模型,HC1的“秒級響應(yīng)”能顯著提升用戶體驗,同時將運營成本削減90%以上。

這種“互補而非替代”的定位,為Taalas在英偉達的陰影下找到了生存空間。

模型迭代與硬件交付的時間賽跑

然而,定位清晰并不能消除商業(yè)模式的核心不確定性——模型迭代周期與芯片開發(fā)周期之間的巨大錯位。

如今,開源大模型的進化是以“月”甚至“周”為單位的。但一顆先進制程的芯片,從架構(gòu)設(shè)計到流片量產(chǎn),通常需要18到24個月。當(dāng)芯片走下產(chǎn)線時,它所“凍結(jié)”的模型在日新月異的算法世界里,將淪為“古董”,且一旦固化模型存在致命缺陷,整批芯片只能報廢。

Taalas對此給出的防守策略是“極速物理迭代”。他們與臺積電合作開發(fā)了“兩層金屬”方案——改變模型不需要重新設(shè)計整個底層硅片,只需更改芯片最上層的兩層金屬掩模,將新模型的硬件化周期壓縮到兩個月左右。同時,HC1保留了LoRA微調(diào)的支持,企業(yè)可以在物理大模型外部掛載小型的“知識補丁”來調(diào)整特定任務(wù)表現(xiàn)。

從“通用主導(dǎo)”走向“通用與專用并存”

在推理成為AI算力新主戰(zhàn)場的2026年,市場正在從“通用主導(dǎo)”向“通用與專用并存”的分裂格局演進。

英偉達通過200億美元收購Groq的推理技術(shù),已釋放出“通用巨頭向?qū)S觅惖劳讌f(xié)”的信號。與此同時,Etched選擇固化Transformer架構(gòu),Groq采用純SRAM的LPU路線,Cerebras用晶圓級引擎突破內(nèi)存墻,Tenstorrent擁抱RISC-V的可編程架構(gòu)——多元技術(shù)路線各顯神通,共同蠶食著曾經(jīng)固若金湯的推理市場。

未來的AI算力版圖,或許將呈現(xiàn)“三分天下”的格局:英偉達GPU和通用加速器主導(dǎo),用于探索AGI的智力邊界,處理最復(fù)雜、最多變的未知任務(wù);Taalas這類“物理硬化”芯片滲透進每一個路燈、家電、工業(yè)機器人中;谷歌TPU、微軟Azure Maia等云廠商自研芯片深耕云內(nèi)部署。

結(jié)語:

Taalas的HC1證明,當(dāng)大模型變成像電阻、電容一樣廉價且隨處可見的電子元器件時,AI真正的大爆發(fā)才算拉開大幕。

網(wǎng)絡(luò)援引:

鈦媒體:《1.69億融資押注專用芯片:Taalas要靠“去GPU化”改寫AI算力格局》

維科網(wǎng):《挑戰(zhàn)英偉達算力霸權(quán)?多倫多一家創(chuàng)企將大模型“刻進”芯片》

芯智訊:《17000 Tokens/s!48倍碾壓英偉達B200!這家把大模型“刻”進芯片的公司,什么來頭?》

搜狐:《全球芯片圈炸鍋:這個“瘋子”把模型刻進硅片,80年架構(gòu)說廢就廢 》

       原文標(biāo)題 : 趨勢丨把大模型刻進AI芯片,極致構(gòu)思背后看迭代周期博弈

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號