訂閱
糾錯
加入自媒體

擴(kuò)散模型對齊迎來“最強(qiáng)解”!HyperAlign屠榜評測:超網(wǎng)絡(luò)動態(tài)適配,畫質(zhì)、語義雙巔峰

作者:Xin Xie等

解讀:AI生成未來

亮點(diǎn)直擊

HyperAlign,一種通過超網(wǎng)絡(luò)自適應(yīng)調(diào)整去噪操作的框架,能夠高效且有效地實(shí)現(xiàn)擴(kuò)散模型的測試時對齊,確保生成的圖像更好地反映用戶意圖的文本語義與視覺吸引力。

設(shè)計(jì)了不同的自適應(yīng)權(quán)重生成策略,以實(shí)現(xiàn)高效靈活的對齊。除了以獎勵分?jǐn)?shù)作為訓(xùn)練目標(biāo)外,我們還引入了偏好正則化項(xiàng)以防止獎勵欺詐問題。

在多種生成模型(例如SD V1.5和FLUX)上評估了所提方法的性能。HyperAlign在不同指標(biāo)上顯著優(yōu)于各基線模型及其他先進(jìn)的微調(diào)和測試時縮放方法,證明了其有效性與優(yōu)越性。

總結(jié)速覽

解決的問題

擴(kuò)散模型生成結(jié)果與人類偏好和意圖不一致:生成的圖像存在美學(xué)質(zhì)量差、語義與提示詞不符等問題。

現(xiàn)有對齊方法的局限性

微調(diào)方法:存在獎勵過優(yōu)化問題,導(dǎo)致多樣性喪失。

測試時縮放方法:計(jì)算開銷大,且容易獎勵欠優(yōu)化,對齊效果不足。

提出的方案

提出 HyperAlign 框架,通過訓(xùn)練一個超網(wǎng)絡(luò)實(shí)現(xiàn)高效且有效的測試時對齊:

核心思路:不直接修改隱狀態(tài),而是通過超網(wǎng)絡(luò)動態(tài)生成低秩適配權(quán)重(LoRA),調(diào)制擴(kuò)散模型的生成算子,從而自適應(yīng)調(diào)整去噪軌跡。

變體設(shè)計(jì):根據(jù)超網(wǎng)絡(luò)的應(yīng)用頻率設(shè)計(jì)了三種策略(逐步驟生成、起始點(diǎn)生成、分段生成),以平衡性能與效率。

優(yōu)化目標(biāo):使用獎勵分?jǐn)?shù)作為訓(xùn)練目標(biāo),并結(jié)合偏好數(shù)據(jù)進(jìn)行正則化,以減少獎勵黑客問題。

應(yīng)用的技術(shù)

超網(wǎng)絡(luò)架構(gòu):輸入包括隱變量、時間步和提示詞,輸出動態(tài)調(diào)制參數(shù)(LoRA權(quán)重)。

低秩適配(LoRA):降低參數(shù)量,避免生成全模型權(quán)重的高成本。

獎勵條件對齊:基于獎勵分?jǐn)?shù)優(yōu)化生成軌跡,并結(jié)合偏好數(shù)據(jù)正則化。

多范式適配:在擴(kuò)散模型(如Stable Diffusion)和整流流(如FLUX)等多種生成范式中實(shí)現(xiàn)。

達(dá)到的效果

性能顯著提升:在增強(qiáng)語義一致性和視覺吸引力方面,顯著優(yōu)于現(xiàn)有微調(diào)和測試時縮放基線方法。

高效對齊:通過動態(tài)權(quán)重生成,避免了傳統(tǒng)測試時方法的高計(jì)算開銷,實(shí)現(xiàn)了更高效的實(shí)時調(diào)整。

平衡多樣性與對齊:通過正則化緩解獎勵過優(yōu)化,保持生成多樣性的同時更好地對齊人類偏好。

廣泛適用性:成功應(yīng)用于多種先進(jìn)生成模型,驗(yàn)證了框架的通用性和擴(kuò)展性。

擴(kuò)散模型對齊

基于分?jǐn)?shù)的生成模型預(yù)備知識

擴(kuò)散模型通過學(xué)習(xí)逆轉(zhuǎn)一個應(yīng)用于干凈數(shù)據(jù)的漸進(jìn)加噪過程,從而捕捉數(shù)據(jù)分布。給定數(shù)據(jù)分布 ,擴(kuò)散模型的前向過程在特定條件下遵循隨機(jī)微分方程 (SDE),用高斯噪聲逐步擾動干凈樣本  直至變成高斯噪聲:

其中 , 是標(biāo)準(zhǔn)維納過程, 和  分別表示漂移系數(shù)和擴(kuò)散系數(shù)。

通過從  開始反向運(yùn)行上述過程,可以得到一個通過逆向 SDE 進(jìn)行的數(shù)據(jù)生成過程:

其中  表示時刻  時  的邊緣分布。分?jǐn)?shù)函數(shù)  可以通過訓(xùn)練模型  來估計(jì):

其中  是權(quán)重函數(shù),, 是高斯轉(zhuǎn)移密度,且 。近似后的  定義了一個學(xué)習(xí)到的分布 。

基于分?jǐn)?shù)的模型統(tǒng)一了擴(kuò)散模型和流匹配模型的公式,其中  的樣本軌跡通過隨機(jī)或常微分方程(SDE 或 ODE)生成。為了清晰簡潔,在不失一般性的前提下,下文的陳述將主要聚焦于擴(kuò)散模型。在這一統(tǒng)一公式下,本文的分析和方法可以自然地推廣到擴(kuò)散模型和流匹配模型。

基于獎勵的擴(kuò)散模型對齊

條件擴(kuò)散模型與分?jǐn)?shù)函數(shù)。 本文考慮條件擴(kuò)散模型,其學(xué)習(xí)分布 ,其中  表示條件變量。該模型的訓(xùn)練目標(biāo)是通過逆擴(kuò)散過程生成樣本,即在條件  的控制下對采樣噪聲  進(jìn)行去噪。在圖像生成中, 是輸入提示詞,指示用戶對生成內(nèi)容的指令。為了更好地進(jìn)行討論,本文采用方差保持(variance-preserving)設(shè)置下的離散分?jǐn)?shù)基模型,其采樣公式為:

其中 ,,,且  是線性增加的噪聲調(diào)度器。這一迭代去噪過程在潛空間中形成了一條軌跡 ,逐漸將噪聲  轉(zhuǎn)化為反映輸入提示詞  的干凈樣本 。

基于獎勵的擴(kuò)散模型對齊。 盡管現(xiàn)有的文生圖(T2I)模型展示了強(qiáng)大的生成能力,但結(jié)果往往達(dá)不到用戶預(yù)期,表現(xiàn)為視覺吸引力差以及與輸入提示詞的語義不一致。這種局限性產(chǎn)生的原因在于分?jǐn)?shù)函數(shù)是從大規(guī)模未篩選的數(shù)據(jù)集中學(xué)習(xí)的,這些數(shù)據(jù)集偏離了人類偏好的分布。為了彌補(bǔ)這一差距,引入了擴(kuò)散模型對齊,以增強(qiáng)生成圖像與人類用戶偏好之間的一致性。

依靠人類偏好數(shù)據(jù),可以獲得一個捕捉人類偏好(例如美學(xué)偏好)的獎勵模型 。通過與條件  相聯(lián)系,獎勵模型可以表述為 ,可以假設(shè)它部分捕捉了  和  之間的一致性以及視覺美學(xué)偏好。它可以從偏好數(shù)據(jù)中顯式學(xué)習(xí),也可以直接利用數(shù)據(jù)進(jìn)行隱式建模。給定一個已學(xué)習(xí)的  和一個獎勵模型,擴(kuò)散模型對齊可以表述為求解一個新的分布:

其中  是 KL 正則化系數(shù),用于控制獎勵最大化與基礎(chǔ)模型一致性之間的平衡。流行為基于訓(xùn)練的對齊方法通過強(qiáng)化學(xué)習(xí)(RL)和直接反向傳播來優(yōu)化目標(biāo)獎勵。雖然有效,但這些方法通常會帶來巨大的計(jì)算開銷和過度優(yōu)化的風(fēng)險,導(dǎo)致生成多樣性下降。相比之下,測試時(test-time)擴(kuò)展方法通過使用引導(dǎo)來修改時間狀態(tài)以實(shí)現(xiàn)對齊目標(biāo)。由于生成分布表現(xiàn)為采樣過程中  的軌跡,測試時對齊可以被視為引導(dǎo)該軌跡,以更好地匹配所需的條件分布 。

方法

本工作旨在訓(xùn)練一個超網(wǎng)絡(luò)(Hypernetwork),以實(shí)現(xiàn)擴(kuò)散模型高效且有效的測試時對齊(Test-time Alignment),該方法被稱為 HyperAlign。

HyperAlig的任務(wù)特定測試時間對齊HyperAlig的任務(wù)特定測試時間對齊

基于擴(kuò)散引導(dǎo)的測試時對齊

測試時擴(kuò)散對齊方法通過調(diào)整生成軌跡來更好地滿足對齊目標(biāo),F(xiàn)有的測試時計(jì)算策略大致可分為基于噪聲采樣的方法和基于梯度的擴(kuò)散引導(dǎo)方法。

噪聲采樣方法試圖根據(jù)獎勵反饋?zhàn)R別有利的噪聲候選者。然而,在巨大的高維噪聲空間中進(jìn)行探索計(jì)算成本高昂且難以收斂,導(dǎo)致效率低下且結(jié)果欠優(yōu)化。

基于梯度的擴(kuò)散引導(dǎo)直接從特定目標(biāo)計(jì)算梯度,并利用它們通過修改時間狀態(tài)來引導(dǎo)去噪軌跡。

為了通過直接注入來自獎勵的引導(dǎo)來有效地對齊擴(kuò)散模型,本工作旨在訓(xùn)練一個超網(wǎng)絡(luò),該網(wǎng)絡(luò)在每個去噪步驟生成特定于提示(prompt-specific)和感知狀態(tài)(state-aware)的調(diào)整。這種設(shè)計(jì)通過將昂貴的測試時優(yōu)化分?jǐn)偟轿⒄{(diào)期間緊湊且可學(xué)習(xí)的建模過程中,從而保持了計(jì)算效率。

在介紹本方法之前,首先分析利用生成梯度引導(dǎo)去噪軌跡的擴(kuò)散引導(dǎo)方法。基于貝葉斯規(guī)則,可以推導(dǎo)出  的近似表達(dá)式,其中第一項(xiàng)對應(yīng)于無條件分?jǐn)?shù)(unconditional score),不需要額外優(yōu)化。因此,本工作專注于第二項(xiàng),即把獎勵梯度注入去噪過程:

其中獎勵函數(shù)實(shí)際上是通過解碼器應(yīng)用于解碼后的圖像域。為了討論的簡潔性,此處省略了解碼器符號。通過將上式代入擴(kuò)散更新公式,可以觀察到基于引導(dǎo)的方法通過將感知獎勵的擴(kuò)散動態(tài)注入到  中來實(shí)現(xiàn)對齊,這本質(zhì)上改變了從  到  的過渡路徑。

用于測試時對齊的超網(wǎng)絡(luò)

梯度引導(dǎo)方法通過使用源自獎勵的分?jǐn)?shù)直接修改時間狀態(tài)來執(zhí)行測試時對齊,從而調(diào)整去噪軌跡。然而,從獎勵模型向生成器反向傳播梯度會帶來巨大的計(jì)算開銷,降低推理速度,并且與生成器的訓(xùn)練過程是脫節(jié)的。

為了緩解這些問題,同時保留特定任務(wù)建模的優(yōu)勢,本工作訓(xùn)練了一個超網(wǎng)絡(luò),該網(wǎng)絡(luò)根據(jù)任務(wù)、輸入和當(dāng)前的生成狀態(tài)有效地引導(dǎo)生成軌跡。其測試時對齊能力是在訓(xùn)練期間通過將基于獎勵的引導(dǎo)注入超網(wǎng)絡(luò)來學(xué)習(xí)的。與微調(diào)對齊方法使用一組固定參數(shù)適應(yīng)所有用戶意圖組合不同,本方法是特定于提示且感知狀態(tài)的,在每個去噪步驟動態(tài)生成自適應(yīng)調(diào)制參數(shù)以對齊生成軌跡。

超網(wǎng)絡(luò)作為動態(tài) LoRA 預(yù)測器本工作的目標(biāo)是學(xué)習(xí)一個超網(wǎng)絡(luò),該網(wǎng)絡(luò)以  和  為輸入,并輸出針對生成過程每一步的調(diào)整。一種樸素的方法是學(xué)習(xí)一個對齊分?jǐn)?shù)來替代公式 (6),但這需要類似于原始生成分?jǐn)?shù)的公式,因此復(fù)雜度很高。相反,本工作將超網(wǎng)絡(luò)設(shè)計(jì)為直接調(diào)整對應(yīng)于原始生成模型中網(wǎng)絡(luò)參數(shù)  的分?jǐn)?shù) ,具體通過為  生成一個輕量級的低秩適配器(Low-Rank Adapter, LoRA)來實(shí)現(xiàn)。

如下圖 3 所示,超網(wǎng)絡(luò)架構(gòu)主要分為兩個組件:感知編碼器(Perception Encoder)和Transformer 解碼器(Transformer Decoder)。

輸入處理:具體而言,輸入的時間潛變量 、時間步  和提示詞  首先被傳入感知編碼器,該編碼器由生成模型預(yù)訓(xùn)練 U-Net 的下采樣塊組成。預(yù)訓(xùn)練的 U-Net 攜帶豐富的擴(kuò)散先驗(yàn),使其成為捕捉跨不同輸入組合語義表示的天然編碼器。

特征解碼與生成:編碼后的特征隨后通過一個線性層投影并傳遞給 Transformer 解碼器。在這里,使用零初始化的 token 生成查詢(Query, Q),并使用編碼特征生成鍵(Key, K)和值(Value, V)。Transformer 解碼器通過交叉注意力機(jī)制整合時間信息和語義信息。

LoRA 輸出:隨后的線性層將解碼后的特征映射為 LoRA 權(quán)重:

其中  表示超網(wǎng)絡(luò)  的參數(shù)。在時間維度上,將生成的 LoRA 權(quán)重整合到原始模型參數(shù)中,產(chǎn)生一個特定于輸入和步驟的分?jǐn)?shù)函數(shù) (此處濫用符號  表示整合),從而修改底層的去噪軌跡。

高效的 HyperAlign (Efficient HyperAlign)默認(rèn)情況下,公式 (7) 中的超網(wǎng)絡(luò)設(shè)計(jì)可以從初始步驟  開始自適應(yīng)地應(yīng)用于所有生成步驟(稱為 HyperAlign-S)。為了平衡推理效率,本工作進(jìn)一步開發(fā)了兩種變體:

HyperAlign-I:訓(xùn)練為僅在起始點(diǎn)預(yù)測一次 LoRA 權(quán)重,即 ,并將其用于所有步驟。

分段變體 (HyperAlign-P) :該變體在幾個關(guān)鍵時間步產(chǎn)生新權(quán)重,同一分段內(nèi)的所有時間步共享相同的 LoRA 權(quán)重。如下圖 4 所示,本工作計(jì)算一步預(yù)測潛變量的相對  距離,較小的值表明相鄰潛變量彼此相似。觀察結(jié)果支持將相似的潛變量狀態(tài)歸為一段并共享相同的 LoRA 權(quán)重,這與不同去噪階段的擴(kuò)散行為一致。本工作計(jì)算曲率率以識別出對軌跡有更大影響的  個關(guān)鍵點(diǎn)。超網(wǎng)絡(luò)被訓(xùn)練為僅在這些關(guān)鍵步驟重新生成 LoRA 權(quán)重,以便以比 HyperAlign-S 更少的計(jì)算量自適應(yīng)地調(diào)制擴(kuò)散過程,從而在效率和性能之間取得平衡。

HyperAlign 訓(xùn)練

為了優(yōu)化超網(wǎng)絡(luò),可以使用獎勵分?jǐn)?shù)作為訓(xùn)練目標(biāo)。通過最大化獎勵信號,鼓勵模型生成具有更高條件似然的中間預(yù)測,從而將潛變量軌跡與真實(shí)的條件分布對齊:

獎勵優(yōu)化的正則化雖然最大化獎勵目標(biāo)驅(qū)動模型產(chǎn)生高獎勵、條件對齊的潛變量狀態(tài),但也暴露出兩個關(guān)鍵挑戰(zhàn):

由于早期去噪階段一步預(yù)測的模糊性導(dǎo)致獎勵信號不準(zhǔn)確;過度優(yōu)化的風(fēng)險,即激進(jìn)的獎勵最大化導(dǎo)致“獎勵破解”(reward hacking)或視覺保真度下降。

為了緩解這些問題,本工作引入了一個正則化損失來約束對齊過程并保持生成質(zhì)量:

其中  表示超參數(shù), 從偏好數(shù)據(jù)  中采樣,且 。這鼓勵學(xué)習(xí)到的去噪條件分?jǐn)?shù)與偏好數(shù)據(jù)中的分?jǐn)?shù)相匹配,從而規(guī)范化獎勵破解問題。

超網(wǎng)絡(luò)優(yōu)化的最終學(xué)習(xí)目標(biāo)如下:

本方法不僅限于擴(kuò)散模型,如前所述,HyperAlign 同樣兼容流匹配模型(Flow-Matching Models,例如實(shí)驗(yàn)中的 FLUX)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

模型與數(shù)據(jù):使用 SD V1.5 和 FLUX 作為基礎(chǔ)模型。HPSv2 用作獎勵模型。正則化損失使用的偏好數(shù)據(jù)來自 Pick-a-Pic 和 HPD

數(shù)據(jù)集與指標(biāo):評估數(shù)據(jù)集包括 Pick-a-Pic、GenEval、HPD 和 Partiprompt。使用 PickScore、ImageReward (IR)、HPSv2、CLIP、GenEval Scorer 和 Aesthetic Predictor 等六種 AI 反饋模型評估圖像質(zhì)量、提示詞對齊度和視覺美感。

與現(xiàn)有方法的比較

本工作將 HyperAlign 與微調(diào)方法(如 DPO, KTO, GRPO)和測試時縮放方法(如 BoN, -greedy, FreeDoM, DyMO)進(jìn)行了比較。

定量分析(如下表 1 和表 2 所示)

在 FLUX 和 SD V1.5 基礎(chǔ)模型上,HyperAlign 在多個指標(biāo)(Pick, IR, CLIP, HPS)上均優(yōu)于現(xiàn)有的微調(diào)和測試時縮放基線。

HyperAlign 有效地實(shí)現(xiàn)了對齊,特別是 HyperAlign-S(每步調(diào)整)表現(xiàn)最佳,而 HyperAlign-I(僅初始步)和 HyperAlign-P(分段步)在保持競爭力的同時提供了更快的推理速度。

相比之下,測試時方法往往存在優(yōu)化不足的問題,而微調(diào)方法則因缺乏輸入適應(yīng)性導(dǎo)致結(jié)果次優(yōu)。

定性評估(如下圖 5 和圖 6 所示)

視覺比較顯示,HyperAlign 生成的圖像布局連貫、語義豐富且視覺美感優(yōu)越。測試時對齊方法生成的圖像效果不穩(wěn)定,有明顯偽影;微調(diào)方法雖得分高但往往過度優(yōu)化,產(chǎn)生顏色過飽和或畸變。

推理效率

HyperAlign 生成單張圖像僅需數(shù)秒(SD V1.5 上約 3-5秒,F(xiàn)LUX 上約 16-20秒),與基礎(chǔ)模型相當(dāng)。相比之下,測試時縮放方法(如 -greedy)因梯度計(jì)算或重復(fù)采樣,耗時巨大(需數(shù)百秒)。HyperAlign 生成和加載自適應(yīng)權(quán)重的額外時間成本幾乎可以忽略不計(jì)。

用戶研究(如下圖 7 所示)

在針對 FLUX 模型的用戶研究中,100名參與者對三個維度(總體偏好、視覺吸引力、提示詞對齊)進(jìn)行投票。HyperAlign-S 在所有維度上均獲得了最高的用戶認(rèn)可率,顯著優(yōu)于 DyMO、SRPO 和 MixGRPO 等方法。

消融研究

正則化數(shù)據(jù)的影響:使用 HPD 替代 Pick-a-Pic 作為正則化數(shù)據(jù),或結(jié)合 PickScore 作為獎勵,HyperAlign 依然表現(xiàn)強(qiáng)勁,證明了方法的魯棒性(如下表 3 所示)。

損失函數(shù)的作用:僅使用偏好數(shù)據(jù)微調(diào)收益微;僅使用獎勵優(yōu)化會導(dǎo)致過度優(yōu)化(如顏色過飽和)。結(jié)合獎勵損失  和正則化損失  能在提升指標(biāo)的同時保持視覺自然度(如下圖 13 所示)。

額外分析

GenEval 基準(zhǔn)測試:HyperAlign 在對象合成、屬性綁定等細(xì)粒度指標(biāo)上表現(xiàn)優(yōu)異(如下表 4 和表 5 所示)。

LoRA 權(quán)重動態(tài):分析顯示,隨著去噪過程進(jìn)行,生成的 LoRA 權(quán)重與初始權(quán)重的余弦相似度降低, 變化率增加,表明不同時間步起到了不同的功能作用(如下圖 8 所示)。

多樣性:PCA 分析表明,HyperAlign 為不同提示詞生成了獨(dú)特的 LoRA 權(quán)重,特別是在生成初期(如下圖 9 所示)。

總結(jié)

HyperAlign,一個基于超網(wǎng)絡(luò)的高效生成模型測試時對齊框架。HyperAlign通過在去噪步驟中動態(tài)生成低秩調(diào)制權(quán)重,實(shí)現(xiàn)了基于獎勵信號的軌跡級對齊。其變體在計(jì)算效率與對齊精度之間提供了靈活的權(quán)衡機(jī)制。在擴(kuò)散模型和整流流骨干網(wǎng)絡(luò)上的大量實(shí)驗(yàn)表明,與現(xiàn)有微調(diào)及測試時對齊方法相比,HyperAlign在語義一致性和美學(xué)質(zhì)量方面均表現(xiàn)出優(yōu)越性能。未來,將在開發(fā)更輕量化超網(wǎng)絡(luò)設(shè)計(jì)的同時,持續(xù)增強(qiáng)動態(tài)適應(yīng)能力,從而進(jìn)一步提升系統(tǒng)的效率與可擴(kuò)展性。

參考文獻(xiàn)

[1] HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models

       原文標(biāo)題 : 擴(kuò)散模型對齊迎來“最強(qiáng)解”!HyperAlign屠榜評測:超網(wǎng)絡(luò)動態(tài)適配,畫質(zhì)、語義雙巔峰

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號