123,123,123

關(guān)于MiniMax的新模型，我想說點(diǎn)不一樣的

2026-03-19 17:28

MiniMax打響了國(guó)產(chǎn)大模型自進(jìn)化第一槍。

新眸原創(chuàng)·作者 | 棠寧

這兩天，大家聊的最多的不是又出了什么刷新榜單的新模型，也不是又簽了什么千萬級(jí)的行業(yè)訂單，而是兩個(gè)字：漲價(jià)。

就在昨天，阿里云和百度智能云同步發(fā)布了公告，旗下AI算力與存儲(chǔ)產(chǎn)品將在4月18日正式調(diào)價(jià)，最高漲幅達(dá)到34%。而在這之前，亞馬遜AWS、微軟Azure、谷歌云已經(jīng)完成了一輪AI相關(guān)服務(wù)的價(jià)格上調(diào)，部分特定項(xiàng)目的漲幅甚至達(dá)到100%。全球云廠商集體進(jìn)入算力漲價(jià)周期，沒有一家能置身事外。

打個(gè)比方，現(xiàn)在做大模型，就像開著車上了沒有出口的高速，油門不敢松，松了就會(huì)被后面的車瞬間超過，但油價(jià)一直在漲，油箱里的融資款越燒越少，沒人知道自己能不能撐到下一個(gè)服務(wù)區(qū)。

這話不是矯情。如果你留意阿里2026財(cái)報(bào)Q3前瞻和剛剛發(fā)布的騰訊財(cái)報(bào)，你會(huì)發(fā)現(xiàn)兩者最大的共通點(diǎn)，就是加大了對(duì)AI基礎(chǔ)設(shè)施與大模型研發(fā)的大額持續(xù)投入，當(dāng)然，這也不可避免地讓昔日互聯(lián)網(wǎng)巨頭在營(yíng)收增速上放慢了腳步。

幾乎在同一時(shí)間，上海的大模型創(chuàng)業(yè)公司MiniMax，發(fā)布了新一代旗艦大模型M2.7。和行業(yè)里常見的“參數(shù)規(guī)模再創(chuàng)新高”、“權(quán)威榜單全面領(lǐng)先”的發(fā)布邏輯不同，這款模型最核心的標(biāo)簽，是“自進(jìn)化”。

據(jù)官方介紹，這是全球第一個(gè)實(shí)現(xiàn)商用的自進(jìn)化大模型，它可以深度參與自身訓(xùn)練優(yōu)化的全流程，在部分研發(fā)場(chǎng)景可承擔(dān)30%到50%的工作量。

一邊是全行業(yè)都在為算力成本、研發(fā)效率焦慮，在軍備競(jìng)賽的泥潭中越陷越深；一邊是一家成立僅4年多的創(chuàng)業(yè)公司，讓大模型從被研發(fā)的工具，變成了研發(fā)的參與者，甚至是主體。這一槍，算是打到了行業(yè)的七寸上。

3年競(jìng)賽，大模型的背后難點(diǎn)

大模型行業(yè)走到今天，整整三年時(shí)間，幾乎所有玩家都困在同一場(chǎng)軍備競(jìng)賽里。

2023年ChatGPT引爆生成式AI浪潮的時(shí)候，行業(yè)的競(jìng)爭(zhēng)焦點(diǎn)是參數(shù)規(guī)模。從百億參數(shù)到千億參數(shù)，再到萬億參數(shù)，大模型的參數(shù)膨脹速度，遠(yuǎn)超摩爾定律曾經(jīng)的節(jié)奏，仿佛參數(shù)規(guī)模就是衡量大模型能力的唯一標(biāo)尺，誰家的參數(shù)更大，誰家就站在了行業(yè)的頂端。

很快，參數(shù)競(jìng)賽就走到了盡頭，大家發(fā)現(xiàn)，參數(shù)規(guī)模的提升，帶來的能力增長(zhǎng)越來越有限，反而對(duì)算力的需求呈指數(shù)級(jí)上漲。于是行業(yè)的競(jìng)爭(zhēng)焦點(diǎn)，轉(zhuǎn)向了算力資源的爭(zhēng)奪。高端AI芯片的供需缺口持續(xù)擴(kuò)大，國(guó)內(nèi)的大模型公司紛紛鎖定長(zhǎng)期算力訂單，行業(yè)一度出現(xiàn)“一卡難求”的局面，甚至有創(chuàng)業(yè)公司為了保障算力穩(wěn)定，直接包下了整個(gè)智算中心的機(jī)柜。

到了2025年，單純的算力軍備競(jìng)賽也卷不動(dòng)了，行業(yè)的戰(zhàn)場(chǎng)延伸到了落地場(chǎng)景。大廠們紛紛把大模型和自己的云服務(wù)、硬件產(chǎn)品、生態(tài)體系綁定，試圖在千行百業(yè)的落地中搶到先發(fā)優(yōu)勢(shì)，競(jìng)爭(zhēng)從技術(shù)研發(fā)，蔓延到了生態(tài)、渠道、客戶資源的全面比拼。

但這場(chǎng)持續(xù)了三年的競(jìng)賽，代價(jià)越來越沉重，已經(jīng)開始影響到整個(gè)行業(yè)的發(fā)展。

大廠尚且如此，創(chuàng)業(yè)公司的生存壓力更是肉眼可見。我接觸過的不少大模型創(chuàng)業(yè)者，都有過類似的經(jīng)歷：融到的第一筆錢，一半先打給了云廠商鎖定算力，剩下的錢大部分用來支付算法團(tuán)隊(duì)的薪酬，留給產(chǎn)品打磨、場(chǎng)景落地的資金少之又少。行業(yè)就像一個(gè)高速運(yùn)轉(zhuǎn)的跑步機(jī)，所有人都必須不停往前跑，一旦停下來就會(huì)被趕超，但跑的越快，消耗的成本就越高，陷入了“越卷越貴，越貴越卷”的死循環(huán)。

而這個(gè)問題的根源，是大模型研發(fā)效率的底層瓶頸。

傳統(tǒng)的大模型研發(fā)，是一套完全由人驅(qū)動(dòng)的標(biāo)準(zhǔn)化流程。從最開始的數(shù)據(jù)清洗、標(biāo)注，到模型架構(gòu)的設(shè)計(jì)、預(yù)訓(xùn)練的參數(shù)調(diào)整，再到后續(xù)的微調(diào)、對(duì)齊、評(píng)測(cè)、bug修復(fù)，每一個(gè)環(huán)節(jié)都需要大量的算法工程師、數(shù)據(jù)標(biāo)注人員、產(chǎn)品經(jīng)理深度參與。

一個(gè)千億參數(shù)級(jí)別的大模型，從立項(xiàng)到正式發(fā)布，往往需要一個(gè)幾百人的團(tuán)隊(duì)，花費(fèi)3到6個(gè)月的時(shí)間，中間還要消耗數(shù)億的算力成本。即便是迭代速度最快的頭部廠商，一個(gè)完整的大版本更新，也需要至少兩個(gè)月的研發(fā)周期。

更讓人無奈的是，這種“手工作坊”式的研發(fā)模式，正在遭遇明顯的邊際效益遞減。從GPT-3到GPT-4，再到GPT-5，OpenAI的每一次迭代，都投入了比上一次更多的算力和人力，但普通用戶能感知到的能力提升，卻越來越有限。

國(guó)內(nèi)的大模型玩家也是如此，從2023年到2026年，國(guó)內(nèi)已經(jīng)發(fā)布了數(shù)百款大模型，參數(shù)規(guī)模越來越大，訓(xùn)練數(shù)據(jù)越來越多，但真正能重構(gòu)行業(yè)流程、帶來顛覆性體驗(yàn)的能力突破，卻寥寥無幾。很多大模型的迭代，只是在特定榜單上的分?jǐn)?shù)提升，很難轉(zhuǎn)化為用戶可感知的體驗(yàn)升級(jí)。

自進(jìn)化給大模型行業(yè)找了個(gè)新出口

從這個(gè)角度看，MiniMax的M2.7，給大家指了一條全新的路。

M2.7的核心突破，不是參數(shù)規(guī)模的提升，或是某個(gè)特定場(chǎng)景能力的優(yōu)化，而是對(duì)大模型研發(fā)范式的重構(gòu)。

在M2.7之前，大模型在自身的研發(fā)流程里，最多只能承擔(dān)輔助工具的角色。算法工程師可以用它寫一些訓(xùn)練相關(guān)的代碼，做一些簡(jiǎn)單的數(shù)據(jù)清洗工作，但核心的模型架構(gòu)設(shè)計(jì)、訓(xùn)練流程控制、對(duì)齊優(yōu)化等關(guān)鍵環(huán)節(jié)，還是必須由人來完成。大模型始終是一個(gè)被研發(fā)的對(duì)象，而不是研發(fā)的參與者，整個(gè)研發(fā)流程的核心驅(qū)動(dòng)力，始終是人。

而M2.7的“自進(jìn)化”能力，第一次讓大模型深度參與到了自身研發(fā)的全流程中。

根據(jù)MiniMax官方披露的信息，M2.7可以完成數(shù)據(jù)篩選與清洗、訓(xùn)練數(shù)據(jù)的構(gòu)建、模型架構(gòu)的迭代優(yōu)化、訓(xùn)練過程中的參數(shù)調(diào)整、對(duì)齊與評(píng)測(cè)，甚至是自身推理代碼的優(yōu)化等多個(gè)環(huán)節(jié)的工作。在部分特定研發(fā)流程中，M2.7可以承擔(dān)30%到50%的工作量，研發(fā)人員只需要完成頂層的目標(biāo)設(shè)定、關(guān)鍵環(huán)節(jié)的審核與把控，以及最終的效果驗(yàn)收。

這個(gè)變化的本質(zhì)，是把大模型的研發(fā)模式，從過去的“人驅(qū)動(dòng)模型迭代”，轉(zhuǎn)向了“模型驅(qū)動(dòng)模型迭代”。

最直觀的改變，就是研發(fā)效率的提升和成本的下降。

同樣的一個(gè)大模型迭代版本，過去需要一個(gè)200人的算法團(tuán)隊(duì)花費(fèi)3個(gè)月的時(shí)間完成，現(xiàn)在只需要更少的人力、更短的周期就能落地，人力成本和時(shí)間成本都有顯著下降。而在算力成本上，因?yàn)镸2.7可以自主優(yōu)化訓(xùn)練流程，調(diào)整訓(xùn)練參數(shù)，提升算力的使用效率，同樣的訓(xùn)練任務(wù)，消耗的算力資源也會(huì)明顯減少。對(duì)于本就面臨資金壓力的創(chuàng)業(yè)公司來說，這種效率的提升，直接意味著生存空間的擴(kuò)大。

很多人會(huì)有疑問，讓大模型參與自己的研發(fā)，會(huì)不會(huì)犧牲基礎(chǔ)能力？

從官方發(fā)布的信息來看，并沒有。M2.7的編程能力已經(jīng)追平了OpenAI的GPT-5.3-Codex，在多模態(tài)理解、長(zhǎng)上下文處理、邏輯推理等核心能力上，也進(jìn)入了國(guó)內(nèi)大模型的第一梯隊(duì)。自進(jìn)化能力的實(shí)現(xiàn)，沒有以犧牲基礎(chǔ)能力為代價(jià)，反而通過模型的自主優(yōu)化，實(shí)現(xiàn)了基礎(chǔ)能力的同步提升。

對(duì)于一家成立僅4年多的創(chuàng)業(yè)公司來說，這樣的成績(jī)并非偶然。MiniMax成立于2022年，是國(guó)內(nèi)最早一批入局大模型賽道的創(chuàng)業(yè)公司，此前已經(jīng)發(fā)布了多個(gè)版本的通用大模型，在多模態(tài)生成、長(zhǎng)對(duì)話等領(lǐng)域積累了成熟的技術(shù)能力，也沉淀了大量的模型研發(fā)數(shù)據(jù)與經(jīng)驗(yàn)，這些都為自進(jìn)化大模型的研發(fā)提供了堅(jiān)實(shí)的基礎(chǔ)。而這次自進(jìn)化大模型的發(fā)布，也讓MiniMax從國(guó)內(nèi)大模型的第二梯隊(duì)，一躍進(jìn)入了技術(shù)創(chuàng)新的第一陣營(yíng)。

M2.7的發(fā)布，之所以能在行業(yè)內(nèi)引發(fā)這么大的震動(dòng)，核心原因在于，它打破了大模型行業(yè)過去三年的競(jìng)爭(zhēng)邏輯。

過去三年，大模型行業(yè)的競(jìng)爭(zhēng)，本質(zhì)上是資源的競(jìng)爭(zhēng)。誰能拿到更多的算力，誰能組建更大的算法團(tuán)隊(duì)，誰能投入更多的資金，誰就能在競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)。大廠憑借著自己的資金優(yōu)勢(shì)、算力優(yōu)勢(shì)、生態(tài)優(yōu)勢(shì)，在這場(chǎng)競(jìng)爭(zhēng)中占據(jù)了絕對(duì)的主導(dǎo)地位，創(chuàng)業(yè)公司想要突圍，只能在細(xì)分場(chǎng)景里尋找機(jī)會(huì)，很難在通用大模型的核心技術(shù)上，和大廠正面抗衡。

行業(yè)的馬太效應(yīng)越來越明顯，頭部廠商占據(jù)了絕大多數(shù)的算力資源、人才資源和市場(chǎng)份額，中小玩家的生存空間越來越小。

但自進(jìn)化大模型的出現(xiàn)，改變了這個(gè)游戲規(guī)則。當(dāng)大模型可以自己研發(fā)自己的時(shí)候，資源的重要性會(huì)相對(duì)下降，技術(shù)創(chuàng)新的權(quán)重會(huì)被無限放大。創(chuàng)業(yè)公司不需要再和大廠拼算力、拼資金、拼團(tuán)隊(duì)規(guī)模，只需要在核心技術(shù)上實(shí)現(xiàn)突破，就能用更少的資源，實(shí)現(xiàn)更快的迭代速度，在競(jìng)爭(zhēng)中拿到自己的一席之地。

和當(dāng)年的DeepSeek類似，相當(dāng)于給陷入內(nèi)卷的行業(yè)，打開了一條全新賽道，讓技術(shù)創(chuàng)新重新成為行業(yè)競(jìng)爭(zhēng)的核心。

槍響之后大模型行業(yè)的全新篇章才剛剛開始

同樣的邏輯，也正在全球市場(chǎng)上演。

根據(jù)天風(fēng)國(guó)際證券分析師郭明錤發(fā)表最新調(diào)查分析，英偉達(dá)正在加大對(duì)AI推理架構(gòu)公司Groq的投資布局，Groq旗下LPU的出貨規(guī)劃出現(xiàn)顯著上修，預(yù)計(jì)2026-2027年累計(jì)出貨量將達(dá)到400萬至500萬顆，較此前規(guī)模實(shí)現(xiàn)超10倍的增長(zhǎng)。同時(shí)，英偉達(dá)計(jì)劃將單一AI機(jī)柜中的LPU配置數(shù)量從64顆大幅提升至256顆，擴(kuò)充存儲(chǔ)容量并維持超低延遲推理性能，應(yīng)對(duì)爆發(fā)式增長(zhǎng)的AI推理需求。

英偉達(dá)的布局，核心是為了解決當(dāng)前AI行業(yè)的新瓶頸——隨著大模型落地規(guī)模的擴(kuò)大，推理算力的消耗正在呈指數(shù)級(jí)增長(zhǎng)，這也是全球云廠商集體漲價(jià)的核心原因之一。

換句話說，海外巨頭正在從硬件端入手，通過專用芯片的升級(jí)，提升推理效率，降低推理成本。而MiniMax的自進(jìn)化模型，恰恰是從軟件端、從模型本身入手，通過模型的自主優(yōu)化，提升推理效率，降低對(duì)硬件資源的需求。

有行業(yè)消息稱，OpenAI正在研發(fā)的下一代大模型，核心方向就是模型的自我優(yōu)化與迭代，試圖讓大模型深度參與自身的研發(fā)流程。但截至目前，OpenAI還沒有發(fā)布商用的自進(jìn)化大模型，MiniMax的M2.7，是全球首個(gè)實(shí)現(xiàn)商用的自進(jìn)化大模型。這也意味著，在大模型研發(fā)范式的創(chuàng)新上，國(guó)產(chǎn)大模型已經(jīng)走在了全球行業(yè)的前面。

除了研發(fā)效率和競(jìng)爭(zhēng)邏輯的改變，自進(jìn)化大模型的出現(xiàn)，還可能重構(gòu)整個(gè)AI行業(yè)的產(chǎn)業(yè)鏈格局。

據(jù)消息人士透露，OpenAI與AWS同步披露了新的合作進(jìn)展，雙方將在合規(guī)框架內(nèi)為美國(guó)政府機(jī)構(gòu)提供專屬AI服務(wù)，進(jìn)一步擴(kuò)大政企市場(chǎng)份額。與此同時(shí)，微軟與OpenAI、亞馬遜的云服務(wù)合作糾紛持續(xù)發(fā)酵，市場(chǎng)傳聞微軟可能就OpenAI AI云服務(wù)獨(dú)家協(xié)議，與亞馬遜、OpenAI對(duì)簿公堂。

這場(chǎng)糾紛的背后，是大模型廠商與云廠商之間日益緊張的博弈關(guān)系。過去，大模型廠商高度依賴云廠商的算力支持，云廠商憑借算力資源，掌握了產(chǎn)業(yè)鏈的核心話語權(quán)，甚至可以通過算力的供給，影響大模型廠商的發(fā)展節(jié)奏。國(guó)內(nèi)的大模型行業(yè)也是如此，絕大多數(shù)大模型廠商，都需要依托阿里云、百度智能云、華為云等頭部云廠商的算力支持，在合作中往往處于被動(dòng)地位。

但隨著自進(jìn)化大模型的落地，大模型廠商對(duì)算力資源的依賴度會(huì)顯著下降，這也意味著，大模型廠商在與云廠商的博弈中，將擁有更多的話語權(quán)，產(chǎn)業(yè)鏈的利潤(rùn)分配格局，也可能隨之發(fā)生改變。對(duì)于云廠商來說，單純的算力售賣，已經(jīng)很難維持過去的高增長(zhǎng)，必須向更上層的生態(tài)服務(wù)、解決方案轉(zhuǎn)型，這也將推動(dòng)整個(gè)云服務(wù)行業(yè)的轉(zhuǎn)型升級(jí)。

從ChatGPT引爆生成式AI浪潮，到現(xiàn)在已經(jīng)過去了三年時(shí)間。三年里，大模型行業(yè)從最開始的野蠻生長(zhǎng)，到后來的軍備競(jìng)賽，再到現(xiàn)在的落地內(nèi)卷，已經(jīng)走到了一個(gè)關(guān)鍵的十字路口。

持續(xù)上漲的算力成本，逐漸見頂?shù)倪呺H效益，讓整個(gè)行業(yè)都意識(shí)到，單純依靠資源堆砌的發(fā)展模式，已經(jīng)走到了盡頭。大模型行業(yè)需要一場(chǎng)全新的技術(shù)革命，來打破現(xiàn)有的發(fā)展瓶頸。MiniMax發(fā)布的自進(jìn)化大模型M2.7，就是這場(chǎng)革命的第一槍。

本文系新眸原創(chuàng)

— END —

原文標(biāo)題 : 關(guān)于MiniMax的新模型，我想說點(diǎn)不一樣的