123,123

視覺AR逆襲！177M效果媲美675M最新SOTA擴散模型，僅需一個“即插即用”的正則化reAR

2026-03-19 14:10

AI生成未來

關(guān)注

作者：Qiyuan He等

解讀：AI生成未來

亮點直擊

將生成器和分詞器之間的不一致性，即分詞器無法解碼生成的 token 序列，確定為視覺自回歸生成的瓶頸；

reAR，一種即插即用的訓(xùn)練正則化方法，它引入了分詞器的視覺歸納偏置并減輕了暴露偏差以訓(xùn)練視覺自回歸模型；

證明了 reAR 顯著改善了不同分詞器上的視覺自回歸生成（例如，在 VQGAN 上，F(xiàn)ID 從 3.02 提高到 1.86），甚至使用更少的參數(shù)超越了更復(fù)雜的生成模型。

總結(jié)速覽

生成效果展示

解決的問題

視覺自回歸（AR）生成模型在圖像生成方面的性能顯著落后于擴散模型。研究人員發(fā)現(xiàn)其核心瓶頸在于生成器-分詞器之間存在不一致性。具體表現(xiàn)為：

生成器生成的 Token 序列分詞器難以有效解碼回圖像。

暴露偏差（Exposure Bias）：AR 模型在訓(xùn)練時基于真實上下文預(yù)測下一個 Token，但在推理時卻依賴自身可能存在錯誤的預(yù)測，導(dǎo)致生成訓(xùn)練中未曾出現(xiàn)的 Token 序列。這在視覺 AR 中尤為明顯，一個早期錯誤可能導(dǎo)致圖像結(jié)構(gòu)性偽影的傳播。

嵌入無感知（Embedding Unawareness）：AR 模型在訓(xùn)練時僅優(yōu)化離散 Token 索引的正確性，而忽略了分詞器如何將這些 Token 嵌入到連續(xù)空間。即使 Token 預(yù)測錯誤，若其嵌入與正確 Token 接近，圖像質(zhì)量也可能更高，但 AR 模型對此并不“感知”。這種無感知導(dǎo)致模型無法有效利用嵌入空間中的相似性信息，并可能使生成序列的嵌入偏離訓(xùn)練分布。

提出的方案

提出了 reAR，一種即插即用（plug-and-play）的訓(xùn)練正則化框架，旨在解決生成器-分詞器不一致性問題，并使 AR 模型能夠生成對分詞器更“友好”的 Token 序列。reAR 引入了Token 級別的一致性正則化。

reAR 主要包含兩個互補的策略：

噪聲上下文正則化（Noisy Context Regularization）：在訓(xùn)練期間，通過將模型暴露于擾動的上下文（即對輸入 Token 序列施加均勻噪聲）來減少其對“干凈”真實上下文的依賴。這提高了模型在測試時對不完美預(yù)測歷史的魯棒性，從而緩解了暴露偏差導(dǎo)致的生成未見 Token 序列的趨勢。

碼本嵌入正則化（Codebook Embedding Regularization）：顯式地將生成器 Transformer 的隱藏狀態(tài)與分詞器的嵌入空間對齊。具體來說，通過訓(xùn)練 Transformer 在噪聲上下文中恢復(fù)當(dāng)前 Token 的視覺嵌入，并在淺層預(yù)測當(dāng)前 Token 的嵌入，在深層預(yù)測目標(biāo)（下一個）Token 的嵌入。這鼓勵生成器感知 Token 如何被解碼為視覺 Patch，即使生成了未見 Token 序列，其對應(yīng)的嵌入序列也能與分詞器更兼容。

應(yīng)用的技術(shù)

reAR 框架不需要對現(xiàn)有視覺 AR 模型的任何核心組件進(jìn)行修改，包括：

無需改變分詞器（Tokenizer）

無需改變生成順序（Generation Order）

無需改變推理流水線（Inference Pipeline）

無需引入外部模型（External Models）

其核心技術(shù)在于：

解碼器專用 Transformer：保持了 AR 模型原有的基于 Transformer 的架構(gòu)，用于下一個 Token 預(yù)測。

Token 級別的正則化目標(biāo)：在傳統(tǒng)的下一個 Token 預(yù)測損失之外，額外引入了對當(dāng)前 Token 視覺嵌入恢復(fù)和下一個 Token 嵌入預(yù)測的正則化任務(wù)。

線性退火調(diào)度（Linear Annealing Schedule）：用于控制噪聲上下文正則化中噪聲水平的逐漸變化，以確保訓(xùn)練穩(wěn)定性和模型暴露于不同噪聲程度。

**多層感知機 (MLP)**：用于將 Transformer 的隱藏特征投影到目標(biāo)視覺嵌入空間，以便進(jìn)行嵌入正則化。

余弦距離（Cosine Distance）：作為衡量生成器特征與分詞器嵌入之間距離的度量。

達(dá)到的效果

reAR 取得了顯著的性能提升，且具有優(yōu)秀的泛化能力和效率：

顯著提升圖像生成質(zhì)量：在 ImageNet 數(shù)據(jù)集上，使用標(biāo)準(zhǔn)光柵化分詞器，gFID 從 3.02 降低到 1.86，IS 提高到 316.9。在相同的模型大小和訓(xùn)練預(yù)算下，reAR 甚至超越了傳統(tǒng)的 MAR、VAR 和 SiT 等替代范式。

對不同分詞器的泛化能力強：即使與 TiTok (雙向) 和 AliTok (單向) 等非標(biāo)準(zhǔn)分詞器結(jié)合，reAR 也能持續(xù)提高性能（例如，TiTok 上 FID 從 4.45 提升到 4.01，AliTok 上 FID 從 1.50 提升到 1.42）。

匹配最先進(jìn)擴散模型的性能，同時參數(shù)量更少：結(jié)合高級分詞器 AliTok，reAR 以僅 177M 參數(shù)實現(xiàn)了 1.42 的 gFID，這與需要 675M 參數(shù)的更大規(guī)模、最先進(jìn)的擴散模型 REPA 的性能相匹配。reAR-S 使用 14% 的參數(shù)量（201M vs. 1.4B）優(yōu)于 LlamaGen-XL，并在大小僅為 WeTok 的 13-15% 的情況下超越了它。

良好的縮放行為：隨著模型規(guī)模和訓(xùn)練迭代次數(shù)的增加，reAR 的 FID 持續(xù)下降，顯示出其在大規(guī)模視覺 AR 模型中的潛力。

更快的采樣速度：與其他自回歸模型一樣，reAR 受益于 KV-cache，實現(xiàn)了比擴散模型和 MAR 更高的采樣速度。reAR-B-AliTok 甚至比 Maskbit 等并行解碼方法能以更快的速度達(dá)到更低的 FID。

更高的泛化能力和魯棒性：reAR 縮小了訓(xùn)練數(shù)據(jù)和未見數(shù)據(jù)之間的性能差距，并在噪聲輸入下表現(xiàn)出更高的魯棒性，從而提高了泛化能力。

reAR: 視覺 AR 中的一致性正則化

與自然語言不同，不是視覺自回歸生成中的最終生成結(jié)果。因此，生成器和解碼器之間的不一致性可能導(dǎo)致不令人滿意的結(jié)果，即使自回歸模型訓(xùn)練良好。例如，當(dāng)采樣分詞器訓(xùn)練數(shù)據(jù)集中未見或稀有的序列時，序列可能無法被解碼器 D 正確解碼并影響最終生成結(jié)果。本文假設(shè)分詞器和生成器之間的不一致性是性能的主要障礙。一個有前景的解決方案是訓(xùn)練 AR 模型，使其能夠生成對分詞器友好的 token 序列。

為了驗證本文的假設(shè)，研究并定量分析了現(xiàn)有視覺自回歸模型如何受到不一致性的影響�；谶@些觀察，提出了 reAR：正則化視覺自回歸生成中的 token 級別一致性，這是一種為視覺自回歸模型設(shè)計的即插即用正則化訓(xùn)練方法�？傊瑀eAR 將從離散分詞器中查找的視覺嵌入引入到噪聲上下文下生成器的隱藏特征中。盡管其很簡單，但 reAR 允許自回歸模型利用與分詞器兼容的視覺信號，并顯著減少不一致行為。

理解視覺自回歸生成的瓶頸

自回歸模型的性能可以通過生成 token 與真實序列的正確 token 比率 (CTR) 來評估，其中。雖然 CTR 被廣泛用于指示性能，但 token 序列只是視覺自回歸生成中的中間表示，最終輸出實際上是解碼圖像。為了評估端到端質(zhì)量，本文轉(zhuǎn)而測量兩個 token 序列解碼圖像之間的 LPIPS。本文認(rèn)為訓(xùn)練和推理之間的不一致性可以從 CTR 和 LPIPS 之間的不一致性中觀察到。在下文中，兩個受控實驗表明，具有相似 CTR 的生成 token 序列可以導(dǎo)致不同質(zhì)量的圖像。這種不一致性也通過 AR 模型的其他指標(biāo)（例如困惑度）反映出來，詳情見附錄B。

放大的暴露偏差。暴露偏差是序列模型中一個眾所周知的問題：在教師強制訓(xùn)練期間，模型在給定真實上下文的情況下預(yù)測下一個 token，而在推理時它必須以自己的預(yù)測為條件，這可能包含錯誤。在視覺自回歸生成中，本文假設(shè)視覺分詞器會放大這種效應(yīng)，因為暴露偏差會導(dǎo)致更多未見 token 序列并在像素空間中傳播結(jié)構(gòu)錯誤。為了驗證它，考慮一個從圖像解碼的 token 序列，其真實 token 比率。本文比較了兩種解碼協(xié)議：(1) 完美上下文（前置）。將前個 token 固定為真實值，即，并讓 AR 模型生成其余部分。這在給定的情況下最小化了暴露偏差，因為上下文在步驟之前保持干凈。(2) 不完美上下文（均勻交錯）。均勻隨機采樣一個掩碼，其中。在第步解碼期間，如果，則使用真實 token ，否則從 AR 模型中采樣 token。這引入了上下文的早期污染，從而增加了暴露偏差，與具有相似 CTR 的完美上下文相比。

由于兩種協(xié)議都將真實 token 的數(shù)量固定為，因此下游質(zhì)量的任何差異都反映了對暴露偏差的敏感性，而不是 token 級別的準(zhǔn)確性。結(jié)果顯示在圖 3(a) 中。對于可比較的 CTR，不完美上下文始終比完美上下文產(chǎn)生更高的 LPIPS。從定性上看，不完美上下文導(dǎo)致圖像與原始圖像顯著偏離，而完美上下文產(chǎn)生更好的預(yù)測，即狗的布局更相似。這突出表明緩解暴露偏差在視覺自回歸生成中至關(guān)重要。

嵌入無感知。在訓(xùn)練期間，AR 模型僅針對 token 正確性進(jìn)行優(yōu)化，而分詞器解碼器在嵌入空間中操作。本文假設(shè)即使預(yù)測的 token 不正確，如果其嵌入與正確 token 的嵌入接近，解碼圖像仍可能保持高視覺質(zhì)量。為了驗證這一點，本文引入了替換比率。給定真實序列，AR 模型通過教師強制預(yù)測。對于每個不正確的預(yù)測 ()，本文以的概率將其替換為另一個不正確的 token ，其嵌入在余弦相似度下最接近正確嵌入，即。此替換不會改變 CTR。

圖 3(b) 顯示了結(jié)果。隨著的增加，平均嵌入相似度提高，LPIPS 顯著下降。從定性上看，如圖 3(b) 右側(cè)所示，這種在不改變 CTR 的情況下進(jìn)行的替換可以產(chǎn)生更忠實于真實值的解碼圖像（例如，更清晰地預(yù)測襯衫和人腿）。這表明將分詞器嵌入融入 AR 模型的訓(xùn)練中可能會提高它們之間的一致性。

增加生成器-分詞器不一致性的直接方法是在 AR 模型的嵌入層或預(yù)測頭中重用分詞器的碼本嵌入。然而，這種方法通常會導(dǎo)致次優(yōu)性能，除非分詞器設(shè)計復(fù)雜。本文假設(shè)這種僵硬的集成并不理想：它可能會限制大型 AR 模型與小型分詞器的可擴展性，并且碼本嵌入本身可能不是下一個 token 預(yù)測這一主要任務(wù)的最佳表示。需要以較少約束的方式將嵌入引入模型。

生成器-分詞器一致性正則化

這些發(fā)現(xiàn)揭示了訓(xùn)練-推理不一致性：僅最大化預(yù)測 token 索引的正確性不足以用于視覺 AR 模型。需要適當(dāng)?shù)臍w納偏置來訓(xùn)練生成器，使其生成的 token 序列在推理期間與分詞器更一致。

為了解決這種不一致性，reAR 在視覺 AR 模型的訓(xùn)練期間引入了 token 級別一致性正則化。具體而言，解碼器專用 Transformer 被訓(xùn)練以在噪聲上下文下執(zhí)行下一個 token 預(yù)測，同時其隱藏表示通過淺層中正確當(dāng)前 token 的視覺嵌入和深層中正確下一個 token 的嵌入進(jìn)行正則化。這鼓勵 AR 模型像分詞器一樣解釋當(dāng)前 token，同時提高對暴露偏差的魯棒性，然后預(yù)測與解碼器兼容的下一個 token 嵌入。

下面，本文將 AR 模型表示為，分詞器碼本表示為，訓(xùn)練數(shù)據(jù)集表示為，離散 token 序列表示為。

噪聲上下文正則化。盡管計劃采樣等技術(shù)可以緩解暴露偏差，本文選擇了一種簡單的方法，保留了 Transformer 的并行訓(xùn)練。具體而言，本文對輸入應(yīng)用均勻噪聲，表示為。形式上：

其中是概率為的伯努利隨機變量，從碼本索引中均勻采樣。在實踐中，的選擇強烈影響訓(xùn)練穩(wěn)定性。為了確保 AR 模型暴露于具有不同噪聲水平的序列，本文對每個 token 序列采樣，其中表示歸一化的訓(xùn)練進(jìn)度。這里，是一個控制訓(xùn)練期間最大噪聲水平的退火調(diào)度。然后訓(xùn)練 AR 模型以基于噪聲上下文預(yù)測下一個正確 token。形式上：

經(jīng)驗表明，與固定比率的噪聲增強相比，退火均勻噪聲增強可以穩(wěn)定訓(xùn)練。

碼本嵌入正則化。本文不直接應(yīng)用碼本嵌入，而是提出添加一個正則化任務(wù)，即恢復(fù)當(dāng)前嵌入并預(yù)測下一個嵌入。具體而言，本文應(yīng)用一個可訓(xùn)練的 MLP 層將隱藏特征投影到與視覺嵌入相同維度的目標(biāo)空間。為簡化符號，本文使用表示淺層的特征，使用表示深層的特征。為了與解碼器專用 Transformer 的設(shè)計對齊，淺層的目標(biāo)是預(yù)測當(dāng)前 token 的嵌入，的目標(biāo)是預(yù)測下一個 token。形式上：

其中是余弦距離，用于評估不同特征之間的距離，表示從第個當(dāng)前 token 的特征到嵌入空間的映射，是從碼本中查找的當(dāng)前 token 的嵌入，是下一個 token 的嵌入。在實現(xiàn)中，本文將正則化應(yīng)用于 vanilla AR 中最初最接近分詞器嵌入的層（即用于編碼正則化的第 1 層和用于解碼正則化的第 15 層），以避免與下一個 token 預(yù)測這一主要任務(wù)發(fā)生潛在沖突。

生成器-分詞器一致性正則化。結(jié)合噪聲上下文正則化和碼本嵌入正則化，reAR 的目標(biāo)是：

其中是正則化項的權(quán)重。請注意，本文也將噪聲 token 的隱藏特征與真實 token 的嵌入對齊，這進(jìn)一步鼓勵自回歸模型以穩(wěn)健的方式預(yù)測碼本嵌入。這種聯(lián)合效應(yīng)對于提高視覺自回歸生成的性能至關(guān)重要。

實驗與分析

實驗設(shè)置

本文的實驗設(shè)置摘要如下：

數(shù)據(jù)集和評估。本文在 ImageNet-1K 256×256 分辨率上使用 ADM 協(xié)議評估 reAR。每個模型使用無分類器指導(dǎo)生成 50k 張圖像。本文報告 FID（越低越好）和 IS（越高越好），并通過 epoch 數(shù)和達(dá)到相同質(zhì)量所需的參數(shù)量來比較訓(xùn)練效率。基線涵蓋擴散模型、掩碼生成（連續(xù)和離散）、VAR、隨機順序 AR、高級分詞器 AR 和標(biāo)準(zhǔn)光柵 AR（參見表 1）。

模型配置。本文使用 MaskGIT VQGAN(rFID= 1.97) 作為分詞器和 DiT 風(fēng)格AR 主干。本文報告了 reAR-S/B/L，分別具有 20/24/24 個因果 Transformer 層和 768/768/1024 的隱藏大小。為了評估 reAR 的泛化能力，本文還將其與 TiTok和 AliTok結(jié)合使用，并采用其原始設(shè)置。

訓(xùn)練。所有模型都在 8 個 A800 GPU 上訓(xùn)練 400 個 epoch（批量大小 2048），使用 AdamW 、梯度裁剪（范數(shù)= 1）和累積。學(xué)習(xí)率在前 100 個 epoch 預(yù)熱到，然后衰減到，持續(xù)剩余 300 個 epoch。類別標(biāo)簽以 0.1 的概率丟棄，以便在推理時實現(xiàn)無分類器指導(dǎo)。

reAR 實現(xiàn)。本文對退火噪聲增強應(yīng)用線性調(diào)度。嵌入正則化使用一個 2 層 MLP（隱藏大小 2048，權(quán)重）實現(xiàn)：淺層在處正則化當(dāng)前嵌入，而深層在整個 Transformer 的深度處正則化解碼特征（reAR-S/B/L 分別為）。

主要結(jié)果

生成質(zhì)量。如表 1 所示，即使使用標(biāo)準(zhǔn)光柵順序 AR 模型和簡單的二維 patch 分詞器，reAR 也取得了優(yōu)異的結(jié)果。reAR-S 優(yōu)于 LlamaGen-XL等先前的光柵 AR 模型（FID 2.00 vs. 2.34；IS 295.7 vs. 253.9），且僅使用 14% 的參數(shù)（201M vs. 1.4B），并超越了 WeTok等高級分詞器 AR 模型，其大小僅為后者的 13-15%。在相似的規(guī)模下，它與 RAR相當(dāng)并優(yōu)于 RandAR ，reAR-L 則超越了 MAR-L 和 VAR-d30。雖然擴散模型和掩碼生成模型仍然強大，但 reAR 以更少的訓(xùn)練 epoch 縮小了差距。

泛化能力。本文還在非標(biāo)準(zhǔn)分詞器 TiTok和 AliTok上評估了 reAR。與主要幫助雙向分詞的 RAR不同，reAR 始終改進(jìn)了雙向 (TiTok: 4.45 → 4.01) 和單向 (AliTok: 1.50 → 1.42) 分詞器的性能。值得注意的是，它接近基于擴散的 REPA并優(yōu)于 Maskbit，同時使用更少的參數(shù)（177M vs. 675M/305M），具體數(shù)據(jù)如表 2 所示。

縮放效應(yīng)。本文還研究了 reAR 是否能保持原始 AR 模型的縮放行為。具體而言，本文繪制了不同模型大小在不同訓(xùn)練 epoch 下的 FID。如圖 4 所示，隨著模型大小和訓(xùn)練迭代次數(shù)的增加，F(xiàn)ID 持續(xù)下降，這揭示了 reAR 在大規(guī)模視覺 AR 模型上的潛力。

采樣速度。如同其他自回歸模型，reAR 受益于 KV-cache 以實現(xiàn)高采樣速度。本文在單個 A800 GPU 上測量了批量大小為 128 的吞吐量（如圖 5 所示）。通過 KV-cache，自回歸模型的運行速度比擴散模型和 MAR 快得多。此外，reAR-B-AliTok 即使與 Maskbit、TiTok、VAR 和 RandAR 等并行解碼方法相比，也能以更快的采樣速度實現(xiàn)更低的 FID。

消融研究

本文對 reAR 的關(guān)鍵組件進(jìn)行了消融研究，重點關(guān)注編碼/解碼正則化的加權(quán)和層選擇，以及噪聲增強策略。

正則化層。本文使用訓(xùn)練 80 個 epoch 且無分類器指導(dǎo)的 reAR-S 分析了嵌入正則化的最佳層（如表 3 所示）。本文對正則化的存在和位置進(jìn)行了消融，并與樸素的綁定嵌入策略進(jìn)行了比較。對于解碼正則化，早期層（例如，層 10）幾乎沒有益處，而層 15 表現(xiàn)最佳；應(yīng)用更深層會略微降低性能。對于編碼正則化，第一層是最佳的，因為它與 token 嵌入對齊最佳，而更深層會損害生成質(zhì)量。值得注意的是，將正則化應(yīng)用于 vanilla AR 中最接近目標(biāo)嵌入空間的層會產(chǎn)生最佳結(jié)果——在第 0 層編碼并在大約深度處解碼。本文假設(shè)這種放置最小化了對下一個 token 預(yù)測這一主要任務(wù)的干擾�；谶@些發(fā)現(xiàn)，本文對 reAR-S 使用 EN@0 + DE@15，對 reAR-B/L 使用 EN@0 + DE@18。

正則化權(quán)重。如表 3 所示，正則化權(quán)重對生成質(zhì)量的影響可以忽略不計，這可能是因為 AdamW 優(yōu)化器對損失的規(guī)模不敏感。為簡單起見，本文使用。

噪聲增強。本文進(jìn)一步消融了噪聲增強的設(shè)計，探索了兩種策略：(1) 為每個 token 序列分配不同的噪聲水平，以及 (2) 在訓(xùn)練期間退火最大噪聲水平。結(jié)果如表 4 所示，基于帶有碼本嵌入正則化的默認(rèn)設(shè)置（reAR-S 的 EN@0 + DE@15）。所有模型都訓(xùn)練了 400 個 epoch 以評估不同調(diào)度的效果。本文發(fā)現(xiàn)，固定噪聲水平將 FID 從 2.12 提高到 2.08，而更高水平（）導(dǎo)致訓(xùn)練崩潰（FID = 3.15）。將噪聲水平隨機化到 [0, 0.5] 范圍內(nèi)進(jìn)一步將 FID 提高到 2.05。結(jié)合退火調(diào)度，其中，產(chǎn)生了更強的結(jié)果（2.02 FID）。最后，使用截斷線性調(diào)度實現(xiàn)了 2.00 FID 的最佳性能。這些結(jié)果突出表明了適當(dāng)退火噪聲增強的有效性。

一致性正則化的聯(lián)合效應(yīng)。如表 4 所示，僅使用嵌入正則化（）產(chǎn)生了 2.12 的 FID，而僅使用噪聲增強產(chǎn)生了 2.18。相比之下，將兩者結(jié)合進(jìn)一步提高了性能，將 reAR-S 的 FID 降低到 2.00。這表明噪聲上下文正則化和碼本嵌入正則化都很重要。

結(jié)論

本工作將視覺自回歸生成的關(guān)鍵瓶頸確定為生成器和分詞器之間的不匹配，即 AR 模型難以生成可以有效解碼回圖像的 token 序列。為了解決這個問題，提出reAR，一種簡單的正則化方法，它顯著提高了視覺 AR 性能，同時與分詞器設(shè)計無關(guān)。本文希望這項工作能夠鼓勵未來在視覺 AR 模型中統(tǒng)一生成器和分詞器，更廣泛地說，鼓勵開發(fā)統(tǒng)一的多模態(tài)模型。

參考文獻(xiàn)

[1] REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization

原文標(biāo)題 : 視覺AR逆襲！177M效果媲美675M最新SOTA擴散模型，僅需一個“即插即用”的正則化reAR