123,123

延遲優(yōu)先：英偉達發(fā)布 Nemotron-Flash，小模型也要“算得更快”

2025-12-04 18:02

小型語言模型(SLM)的設計工作主要集中于減少參數數量以實現參數最優(yōu)的 SLM，但參數效率并不一定能轉化為實際設備上的相應加速。

英偉達近日發(fā)表的論文解決了這一難題。該論文旨在識別 SLM 實際設備延遲的關鍵決定因素，并為以實際設備延遲為主要考慮因素的 SLM 設計和訓練提供可推廣的原則和方法。

研究團隊推出 Nemotron-Flash。這是一種新型混合小型語言模型，其設計理念是降低實際應用延遲，而非追求參數數量。它具有延遲最優(yōu)的深度-寬度比、通過進化搜索發(fā)現的混合算子以及訓練時權重歸一化等特點。

值得一提的是，該論文已被 NeurIPS 2025 接收。

小模型有什么問題？

為了彌補小模型的不足，團隊確定了兩個核心架構因素：深度-寬度比和算子選擇。前者對小批量延遲至關重要，而后者則同時影響延遲和大批量吞吐量。

發(fā)現表明，改變深度和寬度時，準確率與參數/延遲之間的權衡關系。雖然更深的模型通常能獲得更好的準確率-參數權衡，但它們在準確率-延遲權衡方面可能表現不佳，并且存在一個針對特定延遲預算的最佳深度-寬度比。

研究團隊還探索了新興的高效注意力機制，以評估它們作為候選構建算子的潛力。利用已識別出的有效算子，構建了一個進化搜索框架，用于在混合空間學習模型（SLM）中自動發(fā)現這些算子的延遲最優(yōu)組合，從而提升準確率和延遲性能。

除了架構改進之外，團隊還采用權重歸一化技術進一步增強了 SLM 的訓練，該技術能夠更有效地更新權重并提高最終收斂速度。這項技術可以作為未來 SLM 的通用組件。

對于 SLM 設計，實際設備的延遲主要取決于兩個關鍵因素：模型的深度和寬度，以及算子的選擇。

團隊觀察到三個現象：

更深的模型通常在較寬的深度范圍內都能實現更好的精度參數權衡，盡管這種優(yōu)勢會逐漸飽和；
對于精度-延遲權衡，深度-細化模型的優(yōu)勢可能并不明顯，對于給定的延遲預算，存在一個最佳深度設置。例如，當延遲預算為 3 秒時，深度為 12 的模型在所評估的設置中實現了最佳精度；
最佳深度-寬度比通常會隨著延遲預算的增加而增加。這些觀察結果強調了根據部署約束仔細選擇深度/寬度的必要性，而不是默認使用深度-細化模型。

因此，團隊探索了在模型系列中識別最佳深度-寬度比的原理性方法，通過模型深度和寬度參數化模型損失來擴展現有的縮放定律。

除了模型深度和寬度之外，每一層所使用的算子也是一個關鍵維度。首先，團隊在完全受控的環(huán)境下訓練現有的 LM 架構，以識別在準確率-延遲平衡方面最有前景的算子。然后開發(fā)了一種進化搜索流程，以自動高效地發(fā)現這些算子的混合組合，從而構建混合 SLM。

各種高效注意力機制的出現及其在混合模型中復雜的協同作用，促使團隊構建一個自動化框架，以識別混合模型中高效且互補的注意力機制組合——一個進化搜索引擎，以高效地導航復雜的組合設計空間。

在訓練過程中，研究人員在每次訓練迭代后將模型權重投影到單位范數球面上，以此約束權重的大小。這一歸一化步驟消除了徑向分量，并強調了角度更新，從而在相似的梯度幅度下產生更大的相對權重變化