123,123

擴(kuò)散模型對齊迎來“最強(qiáng)解”！HyperAlign屠榜評測：超網(wǎng)絡(luò)動態(tài)適配，畫質(zhì)、語義雙巔峰

2026-01-27 16:14

作者：Xin Xie等

解讀：AI生成未來

亮點(diǎn)直擊

HyperAlign，一種通過超網(wǎng)絡(luò)自適應(yīng)調(diào)整去噪操作的框架，能夠高效且有效地實(shí)現(xiàn)擴(kuò)散模型的測試時對齊，確保生成的圖像更好地反映用戶意圖的文本語義與視覺吸引力。

設(shè)計(jì)了不同的自適應(yīng)權(quán)重生成策略，以實(shí)現(xiàn)高效靈活的對齊。除了以獎勵分?jǐn)?shù)作為訓(xùn)練目標(biāo)外，我們還引入了偏好正則化項(xiàng)以防止獎勵欺詐問題。

在多種生成模型（例如SD V1.5和FLUX）上評估了所提方法的性能。HyperAlign在不同指標(biāo)上顯著優(yōu)于各基線模型及其他先進(jìn)的微調(diào)和測試時縮放方法，證明了其有效性與優(yōu)越性。

總結(jié)速覽

解決的問題

擴(kuò)散模型生成結(jié)果與人類偏好和意圖不一致：生成的圖像存在美學(xué)質(zhì)量差、語義與提示詞不符等問題。

現(xiàn)有對齊方法的局限性：

微調(diào)方法：存在獎勵過優(yōu)化問題，導(dǎo)致多樣性喪失。

測試時縮放方法：計(jì)算開銷大，且容易獎勵欠優(yōu)化，對齊效果不足。

提出的方案

提出 HyperAlign 框架，通過訓(xùn)練一個超網(wǎng)絡(luò)實(shí)現(xiàn)高效且有效的測試時對齊：

核心思路：不直接修改隱狀態(tài)，而是通過超網(wǎng)絡(luò)動態(tài)生成低秩適配權(quán)重（LoRA），調(diào)制擴(kuò)散模型的生成算子，從而自適應(yīng)調(diào)整去噪軌跡。

變體設(shè)計(jì)：根據(jù)超網(wǎng)絡(luò)的應(yīng)用頻率設(shè)計(jì)了三種策略（逐步驟生成、起始點(diǎn)生成、分段生成），以平衡性能與效率。

優(yōu)化目標(biāo)：使用獎勵分?jǐn)?shù)作為訓(xùn)練目標(biāo)，并結(jié)合偏好數(shù)據(jù)進(jìn)行正則化，以減少獎勵黑客問題。

應(yīng)用的技術(shù)

超網(wǎng)絡(luò)架構(gòu)：輸入包括隱變量、時間步和提示詞，輸出動態(tài)調(diào)制參數(shù)（LoRA權(quán)重）。

低秩適配（LoRA）：降低參數(shù)量，避免生成全模型權(quán)重的高成本。

獎勵條件對齊：基于獎勵分?jǐn)?shù)優(yōu)化生成軌跡，并結(jié)合偏好數(shù)據(jù)正則化。

多范式適配：在擴(kuò)散模型（如Stable Diffusion）和整流流（如FLUX）等多種生成范式中實(shí)現(xiàn)。

達(dá)到的效果

性能顯著提升：在增強(qiáng)語義一致性和視覺吸引力方面，顯著優(yōu)于現(xiàn)有微調(diào)和測試時縮放基線方法。

高效對齊：通過動態(tài)權(quán)重生成，避免了傳統(tǒng)測試時方法的高計(jì)算開銷，實(shí)現(xiàn)了更高效的實(shí)時調(diào)整。

平衡多樣性與對齊：通過正則化緩解獎勵過優(yōu)化，保持生成多樣性的同時更好地對齊人類偏好。

廣泛適用性：成功應(yīng)用于多種先進(jìn)生成模型，驗(yàn)證了框架的通用性和擴(kuò)展性。

擴(kuò)散模型對齊

基于分?jǐn)?shù)的生成模型預(yù)備知識

擴(kuò)散模型通過學(xué)習(xí)逆轉(zhuǎn)一個應(yīng)用于干凈數(shù)據(jù)的漸進(jìn)加噪過程，從而捕捉數(shù)據(jù)分布。給定數(shù)據(jù)分布，擴(kuò)散模型的前向過程在特定條件下遵循隨機(jī)微分方程 (SDE)，用高斯噪聲逐步擾動干凈樣本直至變成高斯噪聲：

其中，是標(biāo)準(zhǔn)維納過程，和分別表示漂移系數(shù)和擴(kuò)散系數(shù)。

通過從開始反向運(yùn)行上述過程，可以得到一個通過逆向 SDE 進(jìn)行的數(shù)據(jù)生成過程：

其中表示時刻時的邊緣分布。分?jǐn)?shù)函數(shù) 可以通過訓(xùn)練模型來估計(jì)：

其中是權(quán)重函數(shù)，，是高斯轉(zhuǎn)移密度，且。近似后的定義了一個學(xué)習(xí)到的分布。

基于分?jǐn)?shù)的模型統(tǒng)一了擴(kuò)散模型和流匹配模型的公式，其中的樣本軌跡通過隨機(jī)或常微分方程（SDE 或 ODE）生成。為了清晰簡潔，在不失一般性的前提下，下文的陳述將主要聚焦于擴(kuò)散模型。在這一統(tǒng)一公式下，本文的分析和方法可以自然地推廣到擴(kuò)散模型和流匹配模型。

基于獎勵的擴(kuò)散模型對齊

條件擴(kuò)散模型與分?jǐn)?shù)函數(shù)。 本文考慮條件擴(kuò)散模型，其學(xué)習(xí)分布，其中表示條件變量。該模型的訓(xùn)練目標(biāo)是通過逆擴(kuò)散過程生成樣本，即在條件的控制下對采樣噪聲進(jìn)行去噪。在圖像生成中，是輸入提示詞，指示用戶對生成內(nèi)容的指令。為了更好地進(jìn)行討論，本文采用方差保持（variance-preserving）設(shè)置下的離散分?jǐn)?shù)基模型，其采樣公式為：

其中，，，且是線性增加的噪聲調(diào)度器。這一迭代去噪過程在潛空間中形成了一條軌跡，逐漸將噪聲轉(zhuǎn)化為反映輸入提示詞的干凈樣本。

基于獎勵的擴(kuò)散模型對齊。 盡管現(xiàn)有的文生圖（T2I）模型展示了強(qiáng)大的生成能力，但結(jié)果往往達(dá)不到用戶預(yù)期，表現(xiàn)為視覺吸引力差以及與輸入提示詞的語義不一致。這種局限性產(chǎn)生的原因在于分?jǐn)?shù)函數(shù)是從大規(guī)模未篩選的數(shù)據(jù)集中學(xué)習(xí)的，這些數(shù)據(jù)集偏離了人類偏好的分布。為了彌補(bǔ)這一差距，引入了擴(kuò)散模型對齊，以增強(qiáng)生成圖像與人類用戶偏好之間的一致性。

依靠人類偏好數(shù)據(jù)，可以獲得一個捕捉人類偏好（例如美學(xué)偏好）的獎勵模型。通過與條件相聯(lián)系，獎勵模型可以表述為，可以假設(shè)它部分捕捉了和之間的一致性以及視覺美學(xué)偏好。它可以從偏好數(shù)據(jù)中顯式學(xué)習(xí)，也可以直接利用數(shù)據(jù)進(jìn)行隱式建模。給定一個已學(xué)習(xí)的和一個獎勵模型，擴(kuò)散模型對齊可以表述為求解一個新的分布：

其中是 KL 正則化系數(shù)，用于控制獎勵最大化與基礎(chǔ)模型一致性之間的平衡。流行為基于訓(xùn)練的對齊方法通過強(qiáng)化學(xué)習(xí)（RL）和直接反向傳播來優(yōu)化目標(biāo)獎勵。雖然有效，但這些方法通常會帶來巨大的計(jì)算開銷和過度優(yōu)化的風(fēng)險，導(dǎo)致生成多樣性下降。相比之下，測試時（test-time）擴(kuò)展方法通過使用引導(dǎo)來修改時間狀態(tài)以實(shí)現(xiàn)對齊目標(biāo)。由于生成分布表現(xiàn)為采樣過程中的軌跡，測試時對齊可以被視為引導(dǎo)該軌跡，以更好地匹配所需的條件分布。

方法

本工作旨在訓(xùn)練一個超網(wǎng)絡(luò)（Hypernetwork），以實(shí)現(xiàn)擴(kuò)散模型高效且有效的測試時對齊（Test-time Alignment），該方法被稱為 HyperAlign。

HyperAlig的任務(wù)特定測試時間對齊

基于擴(kuò)散引導(dǎo)的測試時對齊

測試時擴(kuò)散對齊方法通過調(diào)整生成軌跡來更好地滿足對齊目標(biāo)�，F(xiàn)有的測試時計(jì)算策略大致可分為基于噪聲采樣的方法和基于梯度的擴(kuò)散引導(dǎo)方法。

噪聲采樣方法試圖根據(jù)獎勵反饋?zhàn)R別有利的噪聲候選者。然而，在巨大的高維噪聲空間中進(jìn)行探索計(jì)算成本高昂且難以收斂，導(dǎo)致效率低下且結(jié)果欠優(yōu)化。

基于梯度的擴(kuò)散引導(dǎo)直接從特定目標(biāo)計(jì)算梯度，并利用它們通過修改時間狀態(tài)來引導(dǎo)去噪軌跡。

為了通過直接注入來自獎勵的引導(dǎo)來有效地對齊擴(kuò)散模型，本工作旨在訓(xùn)練一個超網(wǎng)絡(luò)，該網(wǎng)絡(luò)在每個去噪步驟生成特定于提示（prompt-specific）和感知狀態(tài)（state-aware）的調(diào)整。這種設(shè)計(jì)通過將昂貴的測試時優(yōu)化分?jǐn)偟轿⒄{(diào)期間緊湊且可學(xué)習(xí)的建模過程中，從而保持了計(jì)算效率。

在介紹本方法之前，首先分析利用生成梯度引導(dǎo)去噪軌跡的擴(kuò)散引導(dǎo)方法。基于貝葉斯規(guī)則，可以推導(dǎo)出的近似表達(dá)式，其中第一項(xiàng)對應(yīng)于無條件分?jǐn)?shù)（unconditional score），不需要額外優(yōu)化。因此，本工作專注于第二項(xiàng)，即把獎勵梯度注入去噪過程：

其中獎勵函數(shù)實(shí)際上是通過解碼器應(yīng)用于解碼后的圖像域。為了討論的簡潔性，此處省略了解碼器符號。通過將上式代入擴(kuò)散更新公式，可以觀察到基于引導(dǎo)的方法通過將感知獎勵的擴(kuò)散動態(tài)注入到中來實(shí)現(xiàn)對齊，這本質(zhì)上改變了從到的過渡路徑。

用于測試時對齊的超網(wǎng)絡(luò)

梯度引導(dǎo)方法通過使用源自獎勵的分?jǐn)?shù)直接修改時間狀態(tài)來執(zhí)行測試時對齊，從而調(diào)整去噪軌跡。然而，從獎勵模型向生成器反向傳播梯度會帶來巨大的計(jì)算開銷，降低推理速度，并且與生成器的訓(xùn)練過程是脫節(jié)的。

為了緩解這些問題，同時保留特定任務(wù)建模的優(yōu)勢，本工作訓(xùn)練了一個超網(wǎng)絡(luò)，該網(wǎng)絡(luò)根據(jù)任務(wù)、輸入和當(dāng)前的生成狀態(tài)有效地引導(dǎo)生成軌跡。其測試時對齊能力是在訓(xùn)練期間通過將基于獎勵的引導(dǎo)注入超網(wǎng)絡(luò)來學(xué)習(xí)的。與微調(diào)對齊方法使用一組固定參數(shù)適應(yīng)所有用戶意圖組合不同，本方法是特定于提示且感知狀態(tài)的，在每個去噪步驟動態(tài)生成自適應(yīng)調(diào)制參數(shù)以對齊生成軌跡。

超網(wǎng)絡(luò)作為動態(tài) LoRA 預(yù)測器本工作的目標(biāo)是學(xué)習(xí)一個超網(wǎng)絡(luò)，該網(wǎng)絡(luò)以和為輸入，并輸出針對生成過程每一步的調(diào)整。一種樸素的方法是學(xué)習(xí)一個對齊分?jǐn)?shù)來替代公式 (6)，但這需要類似于原始生成分?jǐn)?shù)的公式，因此復(fù)雜度很高。相反，本工作將超網(wǎng)絡(luò)設(shè)計(jì)為直接調(diào)整對應(yīng)于原始生成模型中網(wǎng)絡(luò)參數(shù) 的分?jǐn)?shù) ，具體通過為生成一個輕量級的低秩適配器（Low-Rank Adapter, LoRA）來實(shí)現(xiàn)。

如下圖 3 所示，超網(wǎng)絡(luò)架構(gòu)主要分為兩個組件：感知編碼器（Perception Encoder）和Transformer 解碼器（Transformer Decoder）。

輸入處理：具體而言，輸入的時間潛變量、時間步和提示詞首先被傳入感知編碼器，該編碼器由生成模型預(yù)訓(xùn)練 U-Net 的下采樣塊組成。預(yù)訓(xùn)練的 U-Net 攜帶豐富的擴(kuò)散先驗(yàn)，使其成為捕捉跨不同輸入組合語義表示的天然編碼器。

特征解碼與生成：編碼后的特征隨后通過一個線性層投影并傳遞給 Transformer 解碼器。在這里，使用零初始化的 token 生成查詢（Query, Q），并使用編碼特征生成鍵（Key, K）和值（Value, V）。Transformer 解碼器通過交叉注意力機(jī)制整合時間信息和語義信息。

LoRA 輸出：隨后的線性層將解碼后的特征映射為 LoRA 權(quán)重：

其中表示超網(wǎng)絡(luò) 的參數(shù)。在時間維度上，將生成的 LoRA 權(quán)重整合到原始模型參數(shù)中，產(chǎn)生一個特定于輸入和步驟的分?jǐn)?shù)函數(shù) （此處濫用符號表示整合），從而修改底層的去噪軌跡。

高效的 HyperAlign (Efficient HyperAlign)默認(rèn)情況下，公式 (7) 中的超網(wǎng)絡(luò)設(shè)計(jì)可以從初始步驟開始自適應(yīng)地應(yīng)用于所有生成步驟（稱為 HyperAlign-S）。為了平衡推理效率，本工作進(jìn)一步開發(fā)了兩種變體：

HyperAlign-I：訓(xùn)練為僅在起始點(diǎn)預(yù)測一次 LoRA 權(quán)重，即，并將其用于所有步驟。

分段變體 (HyperAlign-P) ：該變體在幾個關(guān)鍵時間步產(chǎn)生新權(quán)重，同一分段內(nèi)的所有時間步共享相同的 LoRA 權(quán)重。如下圖 4 所示，本工作計(jì)算一步預(yù)測潛變量的相對距離，較小的值表明相鄰潛變量彼此相似。觀察結(jié)果支持將相似的潛變量狀態(tài)歸為一段并共享相同的 LoRA 權(quán)重，這與不同去噪階段的擴(kuò)散行為一致。本工作計(jì)算曲率率以識別出對軌跡有更大影響的個關(guān)鍵點(diǎn)。超網(wǎng)絡(luò)被訓(xùn)練為僅在這些關(guān)鍵步驟重新生成 LoRA 權(quán)重，以便以比 HyperAlign-S 更少的計(jì)算量自適應(yīng)地調(diào)制擴(kuò)散過程，從而在效率和性能之間取得平衡。

HyperAlign 訓(xùn)練

為了優(yōu)化超網(wǎng)絡(luò)，可以使用獎勵分?jǐn)?shù)作為訓(xùn)練目標(biāo)。通過最大化獎勵信號，鼓勵模型生成具有更高條件似然的中間預(yù)測，從而將潛變量軌跡與真實(shí)的條件分布對齊：

獎勵優(yōu)化的正則化雖然最大化獎勵目標(biāo)驅(qū)動模型產(chǎn)生高獎勵、條件對齊的潛變量狀態(tài)，但也暴露出兩個關(guān)鍵挑戰(zhàn)：

由于早期去噪階段一步預(yù)測的模糊性導(dǎo)致獎勵信號不準(zhǔn)確；過度優(yōu)化的風(fēng)險，即激進(jìn)的獎勵最大化導(dǎo)致“獎勵破解”（reward hacking）或視覺保真度下降。

為了緩解這些問題，本工作引入了一個正則化損失來約束對齊過程并保持生成質(zhì)量：

其中表示超參數(shù)，從偏好數(shù)據(jù) 中采樣，且。這鼓勵學(xué)習(xí)到的去噪條件分?jǐn)?shù)與偏好數(shù)據(jù)中的分?jǐn)?shù)相匹配，從而規(guī)范化獎勵破解問題。

超網(wǎng)絡(luò)優(yōu)化的最終學(xué)習(xí)目標(biāo)如下：

本方法不僅限于擴(kuò)散模型，如前所述，HyperAlign 同樣兼容流匹配模型（Flow-Matching Models，例如實(shí)驗(yàn)中的 FLUX）。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

模型與數(shù)據(jù)：使用 SD V1.5 和 FLUX 作為基礎(chǔ)模型。HPSv2 用作獎勵模型。正則化損失使用的偏好數(shù)據(jù)來自 Pick-a-Pic 和 HPD。

數(shù)據(jù)集與指標(biāo)：評估數(shù)據(jù)集包括 Pick-a-Pic、GenEval、HPD 和 Partiprompt。使用 PickScore、ImageReward (IR)、HPSv2、CLIP、GenEval Scorer 和 Aesthetic Predictor 等六種 AI 反饋模型評估圖像質(zhì)量、提示詞對齊度和視覺美感。

與現(xiàn)有方法的比較

本工作將 HyperAlign 與微調(diào)方法（如 DPO, KTO, GRPO）和測試時縮放方法（如 BoN, -greedy, FreeDoM, DyMO）進(jìn)行了比較。

定量分析（如下表 1 和表 2 所示）：

在 FLUX 和 SD V1.5 基礎(chǔ)模型上，HyperAlign 在多個指標(biāo)（Pick, IR, CLIP, HPS）上均優(yōu)于現(xiàn)有的微調(diào)和測試時縮放基線。

HyperAlign 有效地實(shí)現(xiàn)了對齊，特別是 HyperAlign-S（每步調(diào)整）表現(xiàn)最佳，而 HyperAlign-I（僅初始步）和 HyperAlign-P（分段步）在保持競爭力的同時提供了更快的推理速度。

相比之下，測試時方法往往存在優(yōu)化不足的問題，而微調(diào)方法則因缺乏輸入適應(yīng)性導(dǎo)致結(jié)果次優(yōu)。

定性評估（如下圖 5 和圖 6 所示）：

視覺比較顯示，HyperAlign 生成的圖像布局連貫、語義豐富且視覺美感優(yōu)越。測試時對齊方法生成的圖像效果不穩(wěn)定，有明顯偽影；微調(diào)方法雖得分高但往往過度優(yōu)化，產(chǎn)生顏色過飽和或畸變。

推理效率：

HyperAlign 生成單張圖像僅需數(shù)秒（SD V1.5 上約 3-5秒，F(xiàn)LUX 上約 16-20秒），與基礎(chǔ)模型相當(dāng)。相比之下，測試時縮放方法（如 -greedy）因梯度計(jì)算或重復(fù)采樣，耗時巨大（需數(shù)百秒）。HyperAlign 生成和加載自適應(yīng)權(quán)重的額外時間成本幾乎可以忽略不計(jì)。

用戶研究（如下圖 7 所示）：

在針對 FLUX 模型的用戶研究中，100名參與者對三個維度（總體偏好、視覺吸引力、提示詞對齊）進(jìn)行投票。HyperAlign-S 在所有維度上均獲得了最高的用戶認(rèn)可率，顯著優(yōu)于 DyMO、SRPO 和 MixGRPO 等方法。

消融研究

正則化數(shù)據(jù)的影響：使用 HPD 替代 Pick-a-Pic 作為正則化數(shù)據(jù)，或結(jié)合 PickScore 作為獎勵，HyperAlign 依然表現(xiàn)強(qiáng)勁，證明了方法的魯棒性（如下表 3 所示）。

損失函數(shù)的作用：僅使用偏好數(shù)據(jù)微調(diào)收益微��；僅使用獎勵優(yōu)化會導(dǎo)致過度優(yōu)化（如顏色過飽和）。結(jié)合獎勵損失和正則化損失能在提升指標(biāo)的同時保持視覺自然度（如下圖 13 所示）。

額外分析

GenEval 基準(zhǔn)測試：HyperAlign 在對象合成、屬性綁定等細(xì)粒度指標(biāo)上表現(xiàn)優(yōu)異（如下表 4 和表 5 所示）。

LoRA 權(quán)重動態(tài)：分析顯示，隨著去噪過程進(jìn)行，生成的 LoRA 權(quán)重與初始權(quán)重的余弦相似度降低，變化率增加，表明不同時間步起到了不同的功能作用（如下圖 8 所示）。

多樣性：PCA 分析表明，HyperAlign 為不同提示詞生成了獨(dú)特的 LoRA 權(quán)重，特別是在生成初期（如下圖 9 所示）。

總結(jié)

HyperAlign，一個基于超網(wǎng)絡(luò)的高效生成模型測試時對齊框架。HyperAlign通過在去噪步驟中動態(tài)生成低秩調(diào)制權(quán)重，實(shí)現(xiàn)了基于獎勵信號的軌跡級對齊。其變體在計(jì)算效率與對齊精度之間提供了靈活的權(quán)衡機(jī)制。在擴(kuò)散模型和整流流骨干網(wǎng)絡(luò)上的大量實(shí)驗(yàn)表明，與現(xiàn)有微調(diào)及測試時對齊方法相比，HyperAlign在語義一致性和美學(xué)質(zhì)量方面均表現(xiàn)出優(yōu)越性能。未來，將在開發(fā)更輕量化超網(wǎng)絡(luò)設(shè)計(jì)的同時，持續(xù)增強(qiáng)動態(tài)適應(yīng)能力，從而進(jìn)一步提升系統(tǒng)的效率與可擴(kuò)展性。

參考文獻(xiàn)

[1] HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models

原文標(biāo)題 : 擴(kuò)散模型對齊迎來“最強(qiáng)解”！HyperAlign屠榜評測：超網(wǎng)絡(luò)動態(tài)適配，畫質(zhì)、語義雙巔峰