123,123

CVPR 2026｜“像素級對齊大師” VA-π: 25分鐘微調FID暴降50%

2026-03-03 17:13

作者：Xinyao Liao*, Qiyuan He*, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao

作者單位：華中科技大學，新加坡國立大學解讀：AI生成未來

在視覺自回歸（AR）模型狂奔的今天，我們似乎已經(jīng)習慣了將 Tokenizer 和生成器當作完美的黑盒組合。然而，回歸事物的本質，我們必須直面一個“房間里的大象”：為什么 Tokenizer 在重建圖像時完美無瑕，但交由 AR 模型自發(fā)生成 Token 序列時，解碼出的圖片卻常常伴隨著結構扭曲與不自然的偽影？

VA-π (Variational Policy Alignment) 深入剖析了這一現(xiàn)象背后的結構邏輯，提出了一種極其輕量且優(yōu)雅的后訓練（Post-training）框架。這項研究摒棄了單純追求工程跑分的暴力路線，而是用極具數(shù)學美感的變分推斷（VI）與強化學習（RL），從根本上彌合了生成與重建的鴻溝。

亮點直擊：極簡算力破解“隱性錯位”

當前的視覺 AR 模型存在一個致命的底層割裂：Tokenizer 學習的是完美還原真實像素，而 AR 生成器僅僅在離散空間里優(yōu)化 Token 的似然概率。這種缺乏“真實物理像素感知”的機制，導致 AR 模型在推理時生成的 Token 極易偏離真實分布流形（Off-manifold）。

為了徹底打通像素與 Token 之間的壁壘，VA-π 給出了一套驚艷的解法：

極致的訓練效率： 徹底告別昂貴且不穩(wěn)定的 RLHF 算力集群！在 8 張 A100 顯卡上，僅需 1% 的 ImageNet 數(shù)據(jù)，微調約 25 分鐘即可完成蛻變。

跨越式的質量飛躍： 在 LlamaGen-XXL 上，VA-π 讓 FID 指標實現(xiàn)了近乎減半的跨越式下降（從 14.36 暴降至 7.65），Inception Score (IS) 從 86.55 飆升至 116.70。

優(yōu)雅的數(shù)學解構： 創(chuàng)新性地在變分框架下引入策略梯度，徹底解決了像素級反饋優(yōu)化中遇到的“不可導”與“計算爆炸”雙重難題，并巧妙化解了自回歸生成的“曝光偏差”。

方法論深潛：用變分推斷重塑生成邏輯

想要用真實像素的誤差來指導離散 Token 的生成，實操中立刻會撞上“不可導”和“計算空間爆炸”兩座大山。VA-π 是如何通過嚴謹?shù)耐茖⑵湟灰换獾模?/p>

在 VA-π (Variational Policy Alignment) 框架中，研究團隊沒有在表層打補丁，而是回到了嚴密的數(shù)學理論中。正如框架圖所示，VA-π 是一個輕量級的后訓練（Post-training）框架，它通過優(yōu)化 AR 生成器來實現(xiàn)像素空間的分布對齊。

以下是 VA-π 打破黑盒、實現(xiàn)直接像素級對齊的四大核心推導步驟：

1. 化解“計算爆炸”：基于變分推斷的對齊證據(jù)下界 (ELBO)

在自回歸視覺生成中，我們最終的目標是最大化真實圖像在像素空間的似φ。但在離散的 Token 空間中直接計算這個積分是極其困難的（Intractable）。

借鑒 VAE 的思想，VA-π 引入了一個由 AR 模型學習的變分后驗分布來近似真實的后驗。極其巧妙的是，VA-π 利用 Teacher Forcing 機制來構建這個后驗分布——即在給定真實前綴的情況下來預測下一個 Token。這使得后驗分布能夠高度集中在那些能被忠實還原為原圖的 Token 序列上，徹底避免了 Free-running 采樣時誤差累積導致的流形偏離（Off-manifold）。

基于此，研究團隊推導出了一個優(yōu)雅的證據(jù)下界 (ELBO) 優(yōu)化目標：

這個公式為我們提供了兩個極具物理意義的訓練信號：

重建項（Reconstruction Term）： 提供像素級的監(jiān)督，強迫 AR 模型在 Teacher Forcing 下生成的序列能夠還原出原圖。

先驗正則化項（Prior Regularization Term）： 約束生成的 Token 分布，維持預訓練 AR 模型的原生語言建模能力。

2. 消除曝光偏差：將正則化簡化為帶噪的 Next-Token 預測

在上述 ELBO 公式中，KL 正則化項衡量的是 Teacher-forced 分布與模型自身 Free-running 分布之間的差異。最小化這個 KL 散度，本質上就是在直接最小化自回歸生成中臭名昭著的曝光偏差（Exposure Bias）。

為了高效實現(xiàn)這一目標，VA-π 引入了上下文噪聲（Contextual Noise）。通過對真實前綴注入擾動率的核噪聲，得到帶噪前綴。最終，這個復雜的正則化項被極其優(yōu)雅地簡化為一個帶噪的 Next-Token 預測損失：

這種強行“加難度”的做法，迫使模型學會在帶有干擾的上下文中依然生成高質量的 Token，大幅提升了推理魯棒性。

3. 突破“不可導”：引入強化學習與重建獎勵 (Reconstruction Reward)

雖然 ELBO 給出了優(yōu)化方向，但重建項包含量化器（Quantizer）和離散的 Teacher-forcing 采樣，導致梯度被完全阻斷（不可導）。僅僅依賴直通估計器（STE）依然無法解決分類分布采樣帶來的偏差。

為了破局，VA-π 巧妙轉換視角，將 AR 生成器視為一個策略（Policy），采用強化學習來最大化重建獎勵（即負的重建損失）。給定參考圖像、真實 Token 以及解碼器還原的圖像，內在獎勵被定義為:

為了避免讓 AR 模型進行昂貴的多次前向推理，這里同樣使用了帶噪的 Token 序列。最大化這個獎勵，就能直接引導 AR 模型生成在像素空間完美對齊的序列。

4. 終極融合：VA-π 策略優(yōu)化 (Policy Optimization with GRPO)

至此，VA-π 擁有了基于 RL 的重建獎勵（Eq. 10）和 Next-Token 正則化（Eq. 9）。這與強化學習中“策略優(yōu)化 + KL 懲罰”的范式完美契合！

VA-π 采用了先進的 GRPO 算法將這兩者整合進一個統(tǒng)一且極其穩(wěn)定的訓練流程中。最終的 VA-π 優(yōu)化目標π如下：

實驗展示：全方位、多尺度的極限施壓

嚴謹?shù)睦碚撝螏砹藰O其扎實的實驗數(shù)據(jù)。為了驗證 VA-π 的普適性，研究團隊在具有挑戰(zhàn)性的兩項視覺生成任務上進行了全面評測：類別條件圖像生成 (Class-to-Image, C2I) 和 *文本條件圖像生成 (Text-to-Image, T2I)。

實驗配置極其克制：

基座模型： 涵蓋純視覺自回歸標桿 LlamaGen（包括 775M 的 XL 版和 1.4B 的 XXL 版），以及當前大熱的統(tǒng)一多模態(tài)大模型 Janus-Pro 1B。

極簡算力： 在 C2I 任務中，僅使用 ImageNet-1k 中 12.8K 的極小樣本量，微調 100 步（約 20~25 分鐘）。全程不依賴無分類器引導（CFG）即可實現(xiàn)穩(wěn)定探索。

1. C2I 核心戰(zhàn)績：25 分鐘微調，F(xiàn)ID 直降 50%

在權威的 ImageNet-1k 驗證集（5 萬張圖像）上，VA-π 迎戰(zhàn)了包括 AR-GRPO（依賴外部獎勵模型的 RL 方法）和傳統(tǒng) STE 方法在內的一眾強敵。結果呈現(xiàn)出碾壓態(tài)勢。

LlamaGen-XXL (1.4B) 的質變： 僅僅經(jīng)過 25 分鐘的后訓練，VA-π 就讓 XXL 模型的 FID 削減了近 50%（14.35 7.65），同時 Inception Score (IS) 大幅提升 30.16。這徹底粉碎了以往方法“保真度與多樣性不可兼得”的魔咒。

無情碾壓復雜 RL 路線： 在 LlamaGen-XL (775M) 上，VA-π （配合 CFG=2.0）拿下了 299.63 的最高 IS 得分，直接超越了復雜的 AR-GRPO 方法。最關鍵的是，VA-π 既不需要訓練任何外部獎勵模型，訓練速度還快了整整 7.5 倍（僅需 20 分鐘）！

2. T2I 核心戰(zhàn)績：無需外部獎勵，統(tǒng)一多模態(tài)大模型

VA-π 的恐怖之處在于其極強的泛化能力。盡管在訓練中完全沒有使用任何文本對齊（Text-alignment）或人類偏好獎勵，它依然在 GenEval 基準測試中大放異彩。

全面超越 AR-GRPO： 在 LlamaGen-XL 上，VA-π 在 GenEval 的多數(shù)子任務上擊敗了 AR-GRPO，特別是在“顏色理解”、“計數(shù)”和“雙目標組合”等復雜語義上進步明顯。更有趣的是（如 Table 1 所示），在評估圖文一致性的 CLIP 和 HPS v2 指標上，未經(jīng)顯式文本偏好微調的 VA-π，竟然打敗了專門針對此優(yōu)化的 AR-GRPO！這充分證明了“底層像素級對齊”帶來的巨大泛化紅利。

賦能統(tǒng)一多模態(tài)大模型： 當我們將 VA-π 插入 Janus-Pro 1B 后，模型的視覺組合能力和語義接地能力進一步躍升（GenEval 綜合得分 0.725 0.744）。特別是在“屬性綁定”和“雙目標關系”上提升顯著。這表明 VA-π 為大型多模態(tài)系統(tǒng)在文本條件生成中彌合“Token級與感知級差異”，提供了一個極具擴展性的通用機制。

3. 拒絕“黑盒煉丹”：嚴密的消融實驗證明

為了探究 VA-π 為何如此高效，研究團隊對獎勵構成、正則化項以及上下文噪聲進行了極其硬核的拆解。

獎勵與正則化缺一不可 (Table 4)： 如果只用像素級重建獎勵（LMSE / Lp），模型會迅速偏離預訓練的 AR 分布，導致徹底崩壞（FID 飆升至 38.76）。只有當引入先驗正則化項（Prior Regularization）作為輔助護欄時，才能完美穩(wěn)住 Token 級似然，達成最佳的對齊平衡（FID 7.65）。

輕量級 CE 正則化更優(yōu) (Fig 4)： 在對比 KL 散度與交叉熵（CE）正則化時發(fā)現(xiàn)，CE 展現(xiàn)出了更優(yōu)的穩(wěn)定性。更重要的是，在寬泛的權重區(qū)間（如）內，模型均能取得最佳的保真度與多樣性平衡，徹底告別“煉丹式”調參。

上下文噪聲的黃金比例 (Table 5)： 針對“曝光偏差（Exposure Bias）”，實驗探究了注入噪聲比例的影響。結果表明，適度的噪聲擾動是打破訓練與推理分布錯位的最優(yōu)解，能在 GenEval 測試中獲得最高的綜合評分（0.339）。不加噪聲或噪聲過載，都會直接削弱模型的最終戰(zhàn)斗力。

4. 結果可視化

類別條件圖像生成 (ImageNet-1K) ：我們提供了在 ImageNet-1K 類別上進行類別條件圖像生成 (C2I) 的定性對比結果。所有樣本均采用相同的解碼設置（CFG = 1.0，temperature = 1.0，top-k = 0，top-p = 1.0）。 ImageNet C2I: kite.