123,123,123

開源大模型迎來新選擇，字節(jié)跳動(dòng)開源Seed-OSS系列模型

2025-08-28 16:27

前言：

在大模型技術(shù)加速迭代的今天，開源生態(tài)正成為推動(dòng)行業(yè)創(chuàng)新的核心力量。

近日，字節(jié)跳動(dòng)Seed團(tuán)隊(duì)突然官宣開源Seed-OSS系列大語言模型，以360億參數(shù)的中等規(guī)模入局，卻憑借原生512K超長(zhǎng)上下文、可編程[思考預(yù)算]等突破性技術(shù)，在七項(xiàng)公開基準(zhǔn)測(cè)試中刷新開源模型最優(yōu)成績(jī)。

作者 | 方文三

圖片來源 | 網(wǎng) 絡(luò)

超長(zhǎng)上下文與可控推理的雙重突破

Seed-OSS系列最引人矚目的兩大核心特性，徹底改變了開源大模型的能力邊界：原生512K超長(zhǎng)上下文與可編程[思考預(yù)算]機(jī)制。

前者解決了信息處理的廣度問題，后者則實(shí)現(xiàn)了推理過程的精準(zhǔn)控制。

原生512K上下文窗口是Seed-OSS的[撒手锏]。

這一能力并非通過后期外推或插值實(shí)現(xiàn)，而是在預(yù)訓(xùn)練階段就直接構(gòu)建，能穩(wěn)定支持512K tokens的序列長(zhǎng)度，相當(dāng)于一次性處理90萬個(gè)漢字，約等于《三體》三部曲全集的文本量。

這一容量是當(dāng)前主流開源模型（如DeepSeek V3.1）的4倍，能輕松應(yīng)對(duì)完整財(cái)報(bào)分析、長(zhǎng)篇法律合同審查、大型代碼庫(kù)理解等專業(yè)場(chǎng)景。

在長(zhǎng)文檔理解基準(zhǔn)測(cè)試RULER-128K中，Seed-OSS-36B-Instruct以94.6分的成績(jī)遠(yuǎn)超第二名Qwen3-32B的77.5分，領(lǐng)先優(yōu)勢(shì)達(dá)17.1個(gè)百分點(diǎn)。

這一數(shù)據(jù)印證了其超長(zhǎng)上下文的實(shí)際效果。

在處理128K以上的真實(shí)長(zhǎng)文檔任務(wù)時(shí)，模型能保持信息連貫性，避免因上下文截?cái)鄬?dǎo)致的關(guān)鍵信息丟失，這對(duì)需要深度挖掘長(zhǎng)文本邏輯關(guān)系的場(chǎng)景至關(guān)重要。

[思考預(yù)算]機(jī)制則體現(xiàn)了Seed-OSS對(duì)推理過程的精細(xì)化控制能力。

用戶可通過[thinking_budget]參數(shù)限定模型的中間推理步數(shù)，預(yù)算單位為tokens，推薦設(shè)置為512的整數(shù)倍（如0、512、1K、2K等）。

其底層通過動(dòng)態(tài)規(guī)劃算法實(shí)現(xiàn)，模型會(huì)在推理過程中實(shí)時(shí)評(píng)估剩余預(yù)算，并優(yōu)先分配資源到關(guān)鍵邏輯節(jié)點(diǎn)。

這種機(jī)制讓模型能根據(jù)任務(wù)難度動(dòng)態(tài)調(diào)整推理策略：對(duì)于IFEval等簡(jiǎn)單指令跟隨任務(wù)，增加預(yù)算對(duì)性能影響不大，設(shè)置0預(yù)算（即時(shí)響應(yīng)模式）可實(shí)現(xiàn)快速響應(yīng)并降低成本；

而面對(duì)AIME24高難度數(shù)學(xué)推理或LiveCodeBench代碼生成任務(wù)時(shí)，預(yù)算從512提升到4K，準(zhǔn)確率分別提高6.3%和4.7%。

例如在代碼生成中，更高預(yù)算會(huì)讓模型自動(dòng)增加函數(shù)依賴關(guān)系驗(yàn)證步驟，顯著提升代碼可靠性。

開源模型性能七項(xiàng)測(cè)試霸榜

Seed-OSS-36B-Instruct在七項(xiàng)公開基準(zhǔn)測(cè)試中均取得開源模型最優(yōu)成績(jī)，覆蓋通用知識(shí)、數(shù)學(xué)推理、代碼生成、長(zhǎng)文檔理解等核心領(lǐng)域，用硬數(shù)據(jù)證明了其中等規(guī)模參數(shù)的強(qiáng)大實(shí)力。

在通用知識(shí)與多領(lǐng)域能力評(píng)估基準(zhǔn)MMLU-Pro中，Seed-OSS-36B-Instruct得分82.7，比開源領(lǐng)域次優(yōu)模型Qwen3-30B-A3B高出0.8分。

這一成績(jī)表明，即使在不依賴超大規(guī)模參數(shù)的情況下，通過優(yōu)化訓(xùn)練數(shù)據(jù)與網(wǎng)絡(luò)結(jié)構(gòu)，模型仍能在跨領(lǐng)域知識(shí)掌握上實(shí)現(xiàn)領(lǐng)先。

復(fù)雜數(shù)學(xué)推理是大模型的[試金石]，Seed-OSS在AIME24基準(zhǔn)中以91.7分領(lǐng)先Qwen3-30B-A3B 4.0分，展現(xiàn)出對(duì)高級(jí)數(shù)學(xué)問題的強(qiáng)處理能力。

這背后既有數(shù)據(jù)增強(qiáng)策略的功勞，也得益于[思考預(yù)算]機(jī)制提供的充足推理空間。

模型能在預(yù)算范圍內(nèi)完成公式推導(dǎo)、步驟分解和自我驗(yàn)證，大幅降低計(jì)算錯(cuò)誤率。

代碼生成領(lǐng)域，Seed-OSS-36B-Instruct在LiveCodeBench v6中得分67.4，比OAI-OSS-20B高出3.6分；

HumanEval通過率76.8%，MBPP達(dá)到80.6%，均刷新開源模型紀(jì)錄。

這與其時(shí)序數(shù)據(jù)增強(qiáng)策略密切相關(guān)，通過學(xué)習(xí)Git提交記錄中的代碼演變過程，模型能更好地理解代碼邏輯與開發(fā)規(guī)范。

軟件工程任務(wù)評(píng)估基準(zhǔn)SWE-Bench Verified中，模型得分56，比OpenHands高出1.2分，證明其在解決真實(shí)軟件工程問題上的實(shí)用性。

而在智能體任務(wù)基準(zhǔn)AgentBench中，Seed-OSS同樣排名開源模型第一，驗(yàn)證了其在多步驟交互、工具使用等復(fù)雜場(chǎng)景的適用性。

多語言能力上，Seed-OSS在涵蓋90種語言的XTREME評(píng)測(cè)中，平均得分比Llama 3-65B高4.3分，這得益于其155K子詞的多語言分詞器和跨語言對(duì)比學(xué)習(xí)策略。

邏輯推理方面，BBH基準(zhǔn)得分87.7，超過Qwen3-30B-A3B的81.2分，展現(xiàn)出強(qiáng)大的邏輯鏈構(gòu)建能力。

更令人驚嘆的是，這些成績(jī)是在僅使用12T token訓(xùn)練數(shù)據(jù)的情況下取得的，相比之下，很多同規(guī)模模型的訓(xùn)練數(shù)據(jù)量都在15T以上。

這意味著Seed-OSS團(tuán)隊(duì)通過更高效的訓(xùn)練策略和數(shù)據(jù)處理方法，實(shí)現(xiàn)了[少而精]的性能突破，為大模型訓(xùn)練的成本優(yōu)化提供了新思路。

從網(wǎng)絡(luò)設(shè)計(jì)到訓(xùn)練策略的革新

Seed-OSS系列的卓越性能并非偶然，而是建立在對(duì)大模型技術(shù)架構(gòu)的系統(tǒng)性優(yōu)化之上。

從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)到訓(xùn)練策略選擇，每一處細(xì)節(jié)都體現(xiàn)了工程化與學(xué)術(shù)創(chuàng)新的深度結(jié)合。

在網(wǎng)絡(luò)結(jié)構(gòu)上，Seed-OSS-36B采用360億參數(shù)的稠密Transformer架構(gòu)，包含64層網(wǎng)絡(luò)和5120的隱藏維度。

其核心創(chuàng)新在于注意力機(jī)制的設(shè)計(jì)，使用分組查詢注意力（GQA），設(shè)置80個(gè)查詢頭和8個(gè)鍵值頭。

與傳統(tǒng)多頭注意力相比，GQA通過讓多個(gè)查詢頭共享鍵值頭，在保持模型性能的同時(shí)，顯著降低了推理過程中的內(nèi)存占用和計(jì)算量。

這一優(yōu)化使單張80GB顯存顯卡就能運(yùn)行半精度模型，大幅降低了部署成本。

位置編碼技術(shù)是支撐512K超長(zhǎng)上下文的關(guān)鍵。Seed-OSS采用旋轉(zhuǎn)位置編碼（RoPE），但將基頻參數(shù)從常規(guī)的1×10提升至1×10。

這一看似簡(jiǎn)單的調(diào)整，讓模型能更精準(zhǔn)地捕捉長(zhǎng)序列中的相對(duì)位置關(guān)系，從根本上解決了長(zhǎng)文本處理中的上下文連續(xù)性問題。

在處理長(zhǎng)達(dá)1600頁(yè)的合同文本時(shí)，Seed-OSS-36B-Instruct的上下文連續(xù)性錯(cuò)誤率比同規(guī)模模型降低42%，這在法律文書審查、金融財(cái)報(bào)分析等專業(yè)場(chǎng)景中價(jià)值連城。

訓(xùn)練策略上，使用12T token的高質(zhì)量語料，經(jīng)過去重、毒性過濾和版權(quán)清洗三重處理，確保數(shù)據(jù)質(zhì)量。

訓(xùn)練框架結(jié)合PyTorch 2.3和Megatron-LM的混合并行技術(shù)，動(dòng)用1024張A100顯卡連續(xù)訓(xùn)練60天，在精度控制上采用bf16前向計(jì)算加fp32主權(quán)重，梯度裁剪設(shè)為1.0，學(xué)習(xí)率通過余弦退火降到1×10。

在多語言對(duì)齊方面，通過中文、英文語料的跨語言對(duì)比學(xué)習(xí)，使MMLU-Pro的中英混合測(cè)試得分提升3.2分；

針對(duì)代碼生成任務(wù)，利用Git提交記錄構(gòu)建時(shí)序訓(xùn)練數(shù)據(jù)，將HumanEval得分提高2.1分；

在數(shù)學(xué)推理訓(xùn)練中，刻意混入15%的錯(cuò)誤推導(dǎo)過程，迫使模型學(xué)會(huì)識(shí)別邏輯漏洞，最終使AIME24的準(zhǔn)確率提升6.3%。

推理優(yōu)化方面，Seed-OSS支持4-bit和8-bit量化（包括GPTQ、AWQ兩種方式），并提供vLLM和Transformers雙后端推理腳本。

通過vLLM后端優(yōu)化，單卡80GB顯存可實(shí)現(xiàn)每秒32 token的生成速度，完全滿足直播字幕生成等實(shí)時(shí)場(chǎng)景需求。

而創(chuàng)新性的[思考預(yù)算]機(jī)制，則讓用戶能通過token級(jí)開關(guān)控制推理深度，實(shí)現(xiàn)性能與成本的靈活平衡。

Seed團(tuán)隊(duì)此前已陸續(xù)開源Seed-Coder代碼生成模型、BAGEL多模態(tài)模型、Seed Diffusion語言模型等項(xiàng)目，加上此次的Seed-OSS系列，形成了覆蓋多領(lǐng)域的開源矩陣。

從技術(shù)趨勢(shì)看，Seed-OSS的成功驗(yàn)證了兩大方向的價(jià)值。

①中等規(guī)模模型的精細(xì)化優(yōu)化，通過網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新、訓(xùn)練策略改進(jìn)和推理機(jī)制設(shè)計(jì)，360億參數(shù)模型能在特定場(chǎng)景媲美更大規(guī)模模型。

②[可控性]成為大模型實(shí)用化的核心指標(biāo)，[思考預(yù)算]機(jī)制將性能與成本的調(diào)控權(quán)交還給用戶，這種[以人為本]的設(shè)計(jì)思路可能成為未來大模型的標(biāo)配功能。

結(jié)尾：

從可選項(xiàng)到標(biāo)配，開源正在重塑大模型的競(jìng)爭(zhēng)格局。Seed-OSS系列的出現(xiàn)，不僅是一次技術(shù)突破，更是對(duì)行業(yè)創(chuàng)新模式的探索。

當(dāng)技術(shù)紅利通過開源惠及更多主體，當(dāng)創(chuàng)新成本因共享機(jī)制大幅降低，大模型的黃金時(shí)代才真正拉開序幕。

部分資料參考：

擬合論見：《36B模型卻能讀懂90萬字上下文？解密字節(jié)首個(gè)開源大語言模型》

量子位：《字節(jié)突然開源Seed-OSS，512K上下文碾壓主流4倍長(zhǎng)度！推理能力刷新紀(jì)錄》

智東西：《字節(jié)首次開源推理模型，連奪7項(xiàng)第一》

原文標(biāo)題 : AI芯天下丨熱點(diǎn)丨開源大模型迎來新選擇，字節(jié)跳動(dòng)開源Seed-OSS系列模型

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無評(píng)論

圖片新聞