訂閱
糾錯
加入自媒體

CVPR 2026|“像素級對齊大師” VA-π: 25分鐘微調FID暴降50%

2026-03-03 17:13
AI生成未來
關注

作者:Xinyao Liao*, Qiyuan He*, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao

作者單位:華中科技大學,新加坡國立大學解讀:AI生成未來

在視覺自回歸(AR)模型狂奔的今天,我們似乎已經(jīng)習慣了將 Tokenizer 和生成器當作完美的黑盒組合。然而,回歸事物的本質,我們必須直面一個“房間里的大象”:為什么 Tokenizer 在重建圖像時完美無瑕,但交由 AR 模型自發(fā)生成 Token 序列時,解碼出的圖片卻常常伴隨著結構扭曲與不自然的偽影?

VA-π (Variational Policy Alignment) 深入剖析了這一現(xiàn)象背后的結構邏輯,提出了一種極其輕量且優(yōu)雅的后訓練(Post-training)框架。這項研究摒棄了單純追求工程跑分的暴力路線,而是用極具數(shù)學美感的變分推斷(VI)與強化學習(RL),從根本上彌合了生成與重建的鴻溝。

亮點直擊:極簡算力破解“隱性錯位”

當前的視覺 AR 模型存在一個致命的底層割裂:Tokenizer 學習的是完美還原真實像素,而 AR 生成器僅僅在離散空間里優(yōu)化 Token 的似然概率。這種缺乏“真實物理像素感知”的機制,導致 AR 模型在推理時生成的 Token 極易偏離真實分布流形(Off-manifold)。

為了徹底打通像素與 Token 之間的壁壘,VA-π 給出了一套驚艷的解法:

極致的訓練效率: 徹底告別昂貴且不穩(wěn)定的 RLHF 算力集群!在 8 張 A100 顯卡上,僅需 1% 的 ImageNet 數(shù)據(jù),微調約 25 分鐘即可完成蛻變。

跨越式的質量飛躍: 在 LlamaGen-XXL 上,VA-π 讓 FID 指標實現(xiàn)了近乎減半的跨越式下降(從 14.36 暴降至 7.65),Inception Score (IS) 從 86.55 飆升至 116.70。

優(yōu)雅的數(shù)學解構: 創(chuàng)新性地在變分框架下引入策略梯度,徹底解決了像素級反饋優(yōu)化中遇到的“不可導”與“計算爆炸”雙重難題,并巧妙化解了自回歸生成的“曝光偏差”。

方法論深潛:用變分推斷重塑生成邏輯

想要用真實像素的誤差來指導離散 Token 的生成,實操中立刻會撞上“不可導”和“計算空間爆炸”兩座大山。VA-π 是如何通過嚴謹?shù)耐茖⑵湟灰换獾模?/p>

在 VA-π (Variational Policy Alignment) 框架中,研究團隊沒有在表層打補丁,而是回到了嚴密的數(shù)學理論中。正如框架圖所示,VA-π 是一個輕量級的后訓練(Post-training)框架,它通過優(yōu)化 AR 生成器來實現(xiàn)像素空間的分布對齊。

以下是 VA-π 打破黑盒、實現(xiàn)直接像素級對齊的四大核心推導步驟:

1. 化解“計算爆炸”:基于變分推斷的對齊證據(jù)下界 (ELBO)

在自回歸視覺生成中,我們最終的目標是最大化真實圖像  在像素空間的似φ。但在離散的 Token 空間中直接計算這個積分是極其困難的(Intractable)。

借鑒 VAE 的思想,VA-π 引入了一個由 AR 模型學習的變分后驗分布 來近似真實的后驗。極其巧妙的是,VA-π 利用 Teacher Forcing 機制來構建這個后驗分布——即在給定真實前綴的情況下來預測下一個 Token。這使得后驗分布能夠高度集中在那些能被忠實還原為原圖的 Token 序列上,徹底避免了 Free-running 采樣時誤差累積導致的流形偏離(Off-manifold)。

基于此,研究團隊推導出了一個優(yōu)雅的證據(jù)下界 (ELBO) 優(yōu)化目標:

這個公式為我們提供了兩個極具物理意義的訓練信號:

重建項(Reconstruction Term): 提供像素級的監(jiān)督,強迫 AR 模型在 Teacher Forcing 下生成的序列能夠還原出原圖。

先驗正則化項(Prior Regularization Term): 約束生成的 Token 分布,維持預訓練 AR 模型的原生語言建模能力。

2. 消除曝光偏差:將正則化簡化為帶噪的 Next-Token 預測

在上述 ELBO 公式中,KL 正則化項衡量的是 Teacher-forced 分布與模型自身 Free-running 分布之間的差異。最小化這個 KL 散度,本質上就是在直接最小化自回歸生成中臭名昭著的曝光偏差(Exposure Bias)。

為了高效實現(xiàn)這一目標,VA-π 引入了上下文噪聲(Contextual Noise)。通過對真實前綴注入擾動率  的核噪聲,得到帶噪前綴。最終,這個復雜的正則化項被極其優(yōu)雅地簡化為一個帶噪的 Next-Token 預測損失:

這種強行“加難度”的做法,迫使模型學會在帶有干擾的上下文中依然生成高質量的 Token,大幅提升了推理魯棒性。

3. 突破“不可導”:引入強化學習與重建獎勵 (Reconstruction Reward)

雖然 ELBO 給出了優(yōu)化方向,但重建項包含量化器(Quantizer)和離散的 Teacher-forcing 采樣,導致梯度被完全阻斷(不可導)。僅僅依賴直通估計器(STE)依然無法解決分類分布采樣帶來的偏差。

為了破局,VA-π 巧妙轉換視角,將 AR 生成器視為一個策略(Policy),采用強化學習來最大化重建獎勵(即負的重建損失)。給定參考圖像 、真實 Token  以及解碼器還原的圖像 ,內在獎勵被定義為:

為了避免讓 AR 模型進行昂貴的多次前向推理,這里同樣使用了帶噪的 Token 序列 。最大化這個獎勵,就能直接引導 AR 模型生成在像素空間完美對齊的序列。

4. 終極融合:VA-π 策略優(yōu)化 (Policy Optimization with GRPO)

至此,VA-π 擁有了基于 RL 的重建獎勵(Eq. 10)和 Next-Token 正則化(Eq. 9)。這與強化學習中“策略優(yōu)化 + KL 懲罰”的范式完美契合!

VA-π 采用了先進的 GRPO 算法 將這兩者整合進一個統(tǒng)一且極其穩(wěn)定的訓練流程中。最終的 VA-π 優(yōu)化目標π如下:

實驗展示:全方位、多尺度的極限施壓

嚴謹?shù)睦碚撝螏砹藰O其扎實的實驗數(shù)據(jù)。為了驗證 VA-π 的普適性,研究團隊在具有挑戰(zhàn)性的兩項視覺生成任務上進行了全面評測:類別條件圖像生成 (Class-to-Image, C2I) 和 *文本條件圖像生成 (Text-to-Image, T2I)。

實驗配置極其克制:

基座模型: 涵蓋純視覺自回歸標桿 LlamaGen(包括 775M 的 XL 版和 1.4B 的 XXL 版),以及當前大熱的統(tǒng)一多模態(tài)大模型 Janus-Pro 1B。

極簡算力: 在 C2I 任務中,僅使用 ImageNet-1k 中 12.8K 的極小樣本量,微調 100 步(約 20~25 分鐘)。全程不依賴無分類器引導(CFG)即可實現(xiàn)穩(wěn)定探索。

1. C2I 核心戰(zhàn)績:25 分鐘微調,F(xiàn)ID 直降 50%

在權威的 ImageNet-1k 驗證集(5 萬張圖像)上,VA-π 迎戰(zhàn)了包括 AR-GRPO(依賴外部獎勵模型的 RL 方法)和傳統(tǒng) STE 方法在內的一眾強敵。結果呈現(xiàn)出碾壓態(tài)勢。

LlamaGen-XXL (1.4B) 的質變: 僅僅經(jīng)過 25 分鐘的后訓練,VA-π 就讓 XXL 模型的 FID 削減了近 50%(14.35  7.65),同時 Inception Score (IS) 大幅提升 30.16。這徹底粉碎了以往方法“保真度與多樣性不可兼得”的魔咒。

無情碾壓復雜 RL 路線: 在 LlamaGen-XL (775M) 上,VA-π (配合 CFG=2.0)拿下了 299.63 的最高 IS 得分,直接超越了復雜的 AR-GRPO 方法。最關鍵的是,VA-π 既不需要訓練任何外部獎勵模型,訓練速度還快了整整 7.5 倍(僅需 20 分鐘)!

2. T2I 核心戰(zhàn)績:無需外部獎勵,統(tǒng)一多模態(tài)大模型

VA-π 的恐怖之處在于其極強的泛化能力。盡管在訓練中完全沒有使用任何文本對齊(Text-alignment)或人類偏好獎勵,它依然在 GenEval 基準測試中大放異彩。

全面超越 AR-GRPO: 在 LlamaGen-XL 上,VA-π 在 GenEval 的多數(shù)子任務上擊敗了 AR-GRPO,特別是在“顏色理解”、“計數(shù)”和“雙目標組合”等復雜語義上進步明顯。更有趣的是(如 Table 1 所示),在評估圖文一致性的 CLIP 和 HPS v2 指標上,未經(jīng)顯式文本偏好微調的 VA-π,竟然打敗了專門針對此優(yōu)化的 AR-GRPO!這充分證明了“底層像素級對齊”帶來的巨大泛化紅利。

賦能統(tǒng)一多模態(tài)大模型: 當我們將 VA-π 插入 Janus-Pro 1B 后,模型的視覺組合能力和語義接地能力進一步躍升(GenEval 綜合得分 0.725 0.744)。特別是在“屬性綁定”和“雙目標關系”上提升顯著。這表明 VA-π 為大型多模態(tài)系統(tǒng)在文本條件生成中彌合“Token級與感知級差異”,提供了一個極具擴展性的通用機制。

3. 拒絕“黑盒煉丹”:嚴密的消融實驗證明

為了探究 VA-π 為何如此高效,研究團隊對獎勵構成、正則化項以及上下文噪聲進行了極其硬核的拆解。

獎勵與正則化缺一不可 (Table 4): 如果只用像素級重建獎勵(LMSE / Lp),模型會迅速偏離預訓練的 AR 分布,導致徹底崩壞(FID 飆升至 38.76)。只有當引入先驗正則化項(Prior Regularization)作為輔助護欄時,才能完美穩(wěn)住 Token 級似然,達成最佳的對齊平衡(FID 7.65)。

輕量級 CE 正則化更優(yōu) (Fig 4): 在對比 KL 散度與交叉熵(CE)正則化時發(fā)現(xiàn),CE 展現(xiàn)出了更優(yōu)的穩(wěn)定性。更重要的是,在寬泛的權重區(qū)間(如 )內,模型均能取得最佳的保真度與多樣性平衡,徹底告別“煉丹式”調參。

上下文噪聲的黃金比例 (Table 5): 針對“曝光偏差(Exposure Bias)”,實驗探究了注入噪聲比例  的影響。結果表明,適度的噪聲擾動是打破訓練與推理分布錯位的最優(yōu)解,能在 GenEval 測試中獲得最高的綜合評分(0.339)。不加噪聲或噪聲過載,都會直接削弱模型的最終戰(zhàn)斗力。

4. 結果可視化

類別條件圖像生成 (ImageNet-1K) :我們提供了在 ImageNet-1K 類別上進行類別條件圖像生成 (C2I) 的定性對比結果。所有樣本均采用相同的解碼設置(CFG = 1.0,temperature = 1.0,top-k = 0,top-p = 1.0)。ImageNet C2I: kite.

ImageNet C2I: kite.

文本條件圖像生成 (GenEval) :我們展示了基于 GenEval 提示詞的 T2I(文生圖)定性對比結果。所有樣本均采用相同的解碼設置(CFG = 5.0,temperature = 1.0,top-k = 0,top-p = 1.0)。

GenEval: attribute binding.GenEval: attribute binding.

小結:為什么 VA-π 能夠實現(xiàn)像素級對齊?

像素級的內在獎勵把原本割裂的“Token 概率優(yōu)化”與“真實物理視覺”徹底打通,讓 AR 策略直接為最終的重建質量負責,從根本上消除了 Tokenizer 與生成器的隱性錯位。

基于變分推斷(ELBO)的 Teacher-forcing把龐雜的在線多步試錯降維成了極其高效的單次前向計算,完美避開了長序列探索的計算爆炸,用極簡算力實現(xiàn)了像素級引導。

ELBO 的天然正則化項把“維持原生分布”變成了堅固的約束護欄,確保模型在追求極致像素反饋時,依然保持嚴密的自回歸一致性,杜絕了生成流形的偏離。

參考文獻

[1] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

       原文標題 : CVPR 2026|“像素級對齊大師” VA-π: 25分鐘微調FID暴降50%

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號