訂閱
糾錯
加入自媒體

僅用1張圖1小時,比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學(xué)”顛覆擴散模型!

作者:Zhuobai Dong等

解讀:AI生成未來

亮點直擊

極致高效的訓(xùn)練:僅需 1 個樣本,在 單張 V100 GPU 上不到 1 小時 即可完成訓(xùn)練。這與需要數(shù)千GPU小時(如 DMD2 需要 3840 小時)的傳統(tǒng)方法形成鮮明對比。

非均勻加速策略:提出了“慢-快”(Slow-Fast)的分階段加速策略,針對擴散模型的語義生成階段和細節(jié)優(yōu)化階段采用不同的加速比,比均勻加速更符合模型特性。

即插即用:無需重新訓(xùn)練龐大的學(xué)生網(wǎng)絡(luò),而是通過兩個輕量級的 LoRA適配器掛載在凍結(jié)的基礎(chǔ)模型上實現(xiàn)加速,且具有極強的泛化能力。圖1. 數(shù)據(jù)使用量與訓(xùn)練時長對比。Glance僅需1個訓(xùn)練樣本并在1個GPU小時內(nèi)即可實現(xiàn)相當(dāng)?shù)纳少|(zhì)量,展現(xiàn)出極致的數(shù)據(jù)與計算效率。請注意橫軸采用對數(shù)刻度,因此零值無法在圖中直接表示。圖1. 數(shù)據(jù)使用量與訓(xùn)練時長對比。Glance僅需1個訓(xùn)練樣本并在1個GPU小時內(nèi)即可實現(xiàn)相當(dāng)?shù)纳少|(zhì)量,展現(xiàn)出極致的數(shù)據(jù)與計算效率。請注意橫軸采用對數(shù)刻度,因此零值無法在圖中直接表示。

解決的問題

推理成本高:擴散模型生成高質(zhì)量圖像通常需要大量的推理步驟(如 50 步),導(dǎo)致計算成本高昂,限制了應(yīng)用。

蒸餾成本高昂且難微調(diào):現(xiàn)有的少步數(shù)蒸餾方法(如 LCM, DMD2 等)需要昂貴的重新訓(xùn)練成本和大規(guī)模數(shù)據(jù)集。此外,直接微調(diào)蒸餾后的模型往往會導(dǎo)致生成結(jié)果模糊。

泛化性與效率的平衡:如何在極少數(shù)據(jù)(甚至單樣本)和極低算力下,實現(xiàn)不損失質(zhì)量的推理加速。圖2:蒸餾與加速策略對比。現(xiàn)有蒸餾流程依賴大規(guī)模訓(xùn)練集和高成本重復(fù)訓(xùn)練,而Glance僅需單一樣本即可獲得慢速與快速雙適配器,為基礎(chǔ)生成模型提供即插即用的加速方案。圖2:蒸餾與加速策略對比。現(xiàn)有蒸餾流程依賴大規(guī)模訓(xùn)練集和高成本重復(fù)訓(xùn)練,而Glance僅需單一樣本即可獲得慢速與快速雙適配器,為基礎(chǔ)生成模型提供即插即用的加速方案。

提出的方案

Glance 框架:基于擴散過程包含“早期語義階段”和“晚期冗余階段”的觀察,設(shè)計了分階段的加速方案。

Slow-Fast LoRA 專家

Slow-LoRA:在早期階段以較低的倍率加速(保留更多步驟),確保全局結(jié)構(gòu)的準確構(gòu)建。

Fast-LoRA:在晚期階段以較高的倍率加速(大幅跳步),快速完成紋理細化。

流匹配監(jiān)督:利用流匹配(Flow Matching)目標函數(shù),使 LoRA 適配器直接學(xué)習(xí)加速后的去噪軌跡速度場。圖3:慢-快范式可視化示意圖。在慢速階段,我們從前20個時間步中每兩步采樣一次(共獲得5個樣本);在快速階段,則從剩余40個步中均勻采樣額外5個時間步。推理過程中,慢速階段的時間步將優(yōu)先于快速階段執(zhí)行。圖3:慢-快范式可視化示意圖。在慢速階段,我們從前20個時間步中每兩步采樣一次(共獲得5個樣本);在快速階段,則從剩余40個步中均勻采樣額外5個時間步。推理過程中,慢速階段的時間步將優(yōu)先于快速階段執(zhí)行。

應(yīng)用的技術(shù)

LoRA (Low-Rank Adaptation) :利用低秩矩陣微調(diào)技術(shù),避免全參數(shù)訓(xùn)練,極大降低顯存和計算需求。

Flow Matching (流匹配) :直接回歸目標速度場,相比于分數(shù)匹配(Score Matching),在少樣本下能更高效地提取結(jié)構(gòu)知識。

Phase-Aware Strategy (階段感知策略) :基于信噪比或時間步將去噪過程劃分為不同區(qū)域,分別訓(xùn)練專門的專家模型。

達到的效果

加速比:在 FLUX.1-12B 和 Qwen-Image-20B 模型上實現(xiàn)了 5 倍加速(8-10 步推理)。

質(zhì)量保持:在 OneIG-Bench、HPSv2 和 GenEval 等基準測試中,性能分別達到教師模型的 92.60%、99.67% 和 96.71%,在視覺質(zhì)量上幾乎無損。

泛化能力:盡管僅用 1 張圖片訓(xùn)練,模型在未見過的提示詞和復(fù)雜場景(如文字渲染、不同風(fēng)格)上仍表現(xiàn)出驚人的泛化能力。

方法

Glance,這是一個階段感知(phase-aware)的加速框架,旨在通過“慢-快”(slow-fast)范式同時提高擴散模型的效率和適應(yīng)性。首先一起回顧下擴散模型和流匹配(flow-matching)的公式作為預(yù)備知識,然后描述本文提出的階段感知 LoRA 專家及其學(xué)習(xí)目標。

預(yù)備知識

擴散與流匹配 (Diffusion and Flow Matching)擴散模型通過逐步將噪聲轉(zhuǎn)化為數(shù)據(jù),學(xué)習(xí)通過參數(shù)化的去噪過程來擬合數(shù)據(jù)分布。流匹配公式將擴散解釋為學(xué)習(xí)一個連續(xù)的速度場,該場將樣本從高斯噪聲  傳輸?shù)角鍧崝?shù)據(jù) 。在時間步  時,中間狀態(tài)定義為 ,模型在給定條件 (例如文本嵌入)的情況下預(yù)測傳輸速度 。目標是預(yù)測速度與目標速度之間的均方誤差:

其中  是真實速度(groundtruth velocity)。為了獲得卓越的性能,擴散模型通常設(shè)計有大量的網(wǎng)絡(luò)參數(shù),并在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)上進行預(yù)訓(xùn)練。顯而易見,為了減少步數(shù)而蒸餾如此巨大的模型在計算上是非常昂貴的。

低秩適應(yīng) (Low-Rank Adaptation)為了緩解上述困難,LoRA最近被應(yīng)用于目標數(shù)據(jù)上的擴散模型快速蒸餾。具體而言,LoRA 引入了一個額外矩陣的低秩分解,,其中  表示凍結(jié)的預(yù)訓(xùn)練參數(shù),而低秩矩陣  和 (其中 )構(gòu)成了可學(xué)習(xí)的 LoRA 參數(shù)。

用于分階段去噪的階段感知 LoRA 專家

為了加速預(yù)訓(xùn)練擴散模型的去噪過程,同時保持生成質(zhì)量,本文保留了預(yù)訓(xùn)練參數(shù) ,并引入了一種緊湊但有效的增強方案:一組階段特定的 LoRA 適配器(phase-specific LoRA adapters)。每個適配器專門負責(zé)去噪軌跡中的特定階段,使模型能夠在推理過程中根據(jù)不同的噪聲水平和語義復(fù)雜性進行動態(tài)調(diào)整。

超越均勻時間步劃分 (Beyond uniform timestep partitioning)先前的工作,如 Timestep Master,已經(jīng)展示了使用在不同時間步間隔上訓(xùn)練的多個 LoRA 適配器的潛力。然而,均勻劃分假設(shè)所有時間步的貢獻是相等的,這與擴散動力學(xué)內(nèi)在的非均勻性相矛盾。實證分析以及先前的研究揭示了不同的時間步表現(xiàn)出明顯不同的語義重要性水平:在早期的、高噪聲機制中,模型主要重建粗糙的全局結(jié)構(gòu)和高級語義(低頻信息);相比之下,后期的、低噪聲機制則專注于細化紋理和細節(jié)(高頻信息)。

基于 SNR 的階段感知劃分 (Phase-aware partitioning via SNR)為了更好地將專家專業(yè)化與擴散過程的內(nèi)在動力學(xué)對齊,我們引入了一種由信噪比(SNR)指導(dǎo)的階段感知劃分策略。與時間步索引不同,SNR 提供了一個物理上更有意義的信號與噪聲相對主導(dǎo)地位的度量,并且隨著去噪的進行單調(diào)遞減。在過程開始時( 較大,高噪聲階段),潛在表示由低 SNR 的噪聲主導(dǎo),使得粗糙結(jié)構(gòu)恢復(fù)成為主要目標。相反,隨著  減小且 SNR 上升,模型過渡到一個專注于紋理細化的低噪聲機制。

基于這一觀察,我們定義了一個對應(yīng)于 SNR 閾值(例如,初始 SNR 值的一半)的過渡邊界 。然后采用兩個特定階段的專家:一個專門用于高噪聲階段()的慢速專家,專注于粗糙語義重建;以及一個用于低噪聲階段()的快速專家,用于增強細粒度細節(jié)。這種 SNR 引導(dǎo)的劃分允許每個專家在其最有效的機制中運行,形成了去噪過程的語義上有意義的分解。

極小訓(xùn)練集的驚人有效性 (Surprising effectiveness of extremely small training sets)為了評估分階段 LoRA 是否可以恢復(fù)加速推理,我們最初使用僅 10 個訓(xùn)練樣本進行了一個過擬合風(fēng)格的實驗。出乎意料的是,模型迅速學(xué)習(xí)到了加速采樣軌跡的忠實近似。更為顯著的是,將數(shù)據(jù)集減少到僅單個訓(xùn)練樣本仍然產(chǎn)生了一種穩(wěn)定的加速行為。

我們將這種數(shù)據(jù)效率歸因于流匹配(flow matching)的本質(zhì)。通過直接預(yù)測沿擴散軌跡的目標速度場,訓(xùn)練目標繞過了冗余的分數(shù)匹配(score-matching)步驟。因此,即使只有幾個示例,也能從中提取出用于快速推理的基本結(jié)構(gòu)知識。

精心設(shè)計的時間步跳過的必要性 (Necessity of carefully designed timestep skipping)盡管這種數(shù)據(jù)效率前景廣闊,但隨后的消融研究表明,時間步的跳過絕非任意的。雖然少步數(shù)的學(xué)生模型可以在總體上模仿教師模型的行為,但并非所有時間步對重建動力學(xué)的貢獻都是相等的;天真的跳過策略可能會嚴重降低性能。為此,我們對不同的專門化方案進行了全面調(diào)查。我們首先探索了為慢速階段 LoRA 適配器分配多個時間步,同時為快速階段保留單個適配器,反之亦然。我們還測試了一種退化配置,即在整個軌跡上訓(xùn)練單個 LoRA。然而,這些變體要么缺乏表達能力來捕捉高噪聲的復(fù)雜性,要么未能利用低噪聲細化階段的時間局部性。

實驗最終表明,將軌跡分離為專用的慢速區(qū)域和專用的快速區(qū)域會產(chǎn)生最穩(wěn)健的專門化效果。這種設(shè)計保留了足夠的容量來建模具有挑戰(zhàn)性的高噪聲動力學(xué),同時在后續(xù)步驟中實現(xiàn)輕量級細化,從而實現(xiàn)了一種緊湊而有效的加速機制。

流匹配監(jiān)督 (Flow-matching supervision)每個特定階段的 LoRA 專家都在流匹配監(jiān)督方案下進行訓(xùn)練,該方案將其預(yù)測的去噪方向與底層數(shù)據(jù)流對齊。給定擴散過程中獲得的噪聲潛在變量 ,模型預(yù)測一個速度場 ,該速度場受到真實流向量  的監(jiān)督。訓(xùn)練目標定義為加權(quán)均方誤差:

其中  表示可選的時間步相關(guān)加權(quán)函數(shù)。通過將每個專家的訓(xùn)練樣本限制在其分配的去噪階段,模型有效地學(xué)會了專注于不同的噪聲水平。由此產(chǎn)生的階段感知 LoRA 專家混合體共同提高了去噪速度和生成質(zhì)量,構(gòu)成了我們提出的慢-快(slow-fast)范式的基礎(chǔ)。

實驗

本節(jié)介紹了 Glance 在文本到圖像生成任務(wù)上的綜合評估。首先報告與競爭基線的定量結(jié)果比較,隨后是詳細的消融分析。然后討論模型的泛化行為及其對數(shù)據(jù)規(guī)模的敏感性。

實驗設(shè)置

蒸餾設(shè)置 (Distillation Setup)。 將兩個大規(guī)模文本到圖像生成器 FLUX.1-12B和 Qwen-Image-20B蒸餾為緊湊的 Slow-Fast 學(xué)生模型。在蒸餾過程中,從教師繼承的基礎(chǔ)參數(shù)保持凍結(jié),僅優(yōu)化 LoRA 適配器。遵循 Qwen-Image-Distill-LoRA,將適配器的放置擴展到標準注意力投影之外。具體而言,LoRA 模塊不僅注入到查詢(query)、鍵(key)、值(value)和輸出投影中,還注入到視覺和文本分支的輔助投影層和模態(tài)特定的 MLP 中。這種更廣泛的集成使學(xué)生能夠更有效地捕捉跨模態(tài)依賴關(guān)系,并在容量緊湊的情況下保持生成保真度。

評估協(xié)議 (Evaluation protocol)。 對來自三個不同提示集的高分辨率  圖像生成進行全面評估:(a) 來自 COCO 2014 驗證集的 10K 標題,(b) 來自 HPSv2 基準的 3200 個提示,(c) 來自 OneIG-Bench的 1120 個提示,(d) 來自 GenEval 基準的 553 個提示,(e) 來自 DPG-Bench的 1065 個提示,以及 (f) 來自 LongText-Bench的 160 個提示。對于 COCO 和 HPSv2 集,我們報告常見指標,包括 FID、補丁 FID (pFID)、CLIP 相似度、VQAScore和 HPSv2.1。在 COCO 提示上,F(xiàn)ID 是針對真實圖像計算的,反映數(shù)據(jù)對齊。在 HPSv2 上,CLIP 和 VQAScore 衡量提示對齊,而 HPSv2 捕捉人類偏好對齊。對于 OneIG-Bench、GenEval、DPG-Bench 和 LongText-Bench,采用其官方評估協(xié)議并基于其各自的基準指標報告結(jié)果。

主要結(jié)果

性能曲線:Glance 的性能曲線(圖4)緊密貼合基礎(chǔ)模型,表明加速后的行為高度一致。

定量對比:在 OneIG-Bench、HPSv2 和 GenEval 上,Glance 分別達到了教師模型 92.60%、99.67% 和 96.71% 的性能。即使與需要數(shù)千 GPU 小時訓(xùn)練的方法(如 DMD2, Qwen-Image-Lightning)相比,僅訓(xùn)練 1 小時的 Glance 也展現(xiàn)出可比甚至更優(yōu)的效果。

視覺質(zhì)量:定性對比(圖5)顯示,Glance 在 8 步推理下保留了語義完整性,而其他 4 步模型(如 Lightning)可能在細節(jié)上有所欠缺。

消融研究

Slow-Fast 設(shè)計:對比了多種時間步分配策略,結(jié)果顯示“慢速階段3步 + 快速階段5步”的非對稱配置優(yōu)于均勻分布或單模型配置,證明了針對性加速的必要性。數(shù)據(jù)規(guī)模:將訓(xùn)練樣本從 1 個增加到 100 個并未帶來顯著提升,說明數(shù)據(jù)的質(zhì)量和階段對齊比單純的數(shù)據(jù)量更關(guān)鍵。時間步覆蓋:更多的 LoRA 適配時間步能帶來更好的文本渲染和整體質(zhì)量。

結(jié)論

Glance框架采用輕量級蒸餾架構(gòu),通過相位感知的"慢-快"設(shè)計加速擴散模型推理。研究發(fā)現(xiàn),LoRA適配器能夠有效區(qū)分去噪過程的不同階段,從而高效捕捉全局語義與局部細節(jié)。該框架僅需八步即可實現(xiàn)高質(zhì)量圖像生成,相比基礎(chǔ)模型獲得5倍加速。盡管僅使用單張圖像和數(shù)小時GPU訓(xùn)練,Glance仍能保持相當(dāng)?shù)囊曈X保真度,并對未見提示詞展現(xiàn)出強大泛化能力。這些結(jié)果表明,數(shù)據(jù)與算力高效的蒸餾方法能夠保持大型擴散模型的表現(xiàn)力而不犧牲質(zhì)量。相信Glance可作為加速大規(guī)模擴散模型的優(yōu)選方案,在數(shù)據(jù)稀缺場景中尤具應(yīng)用潛力。

參考文獻

[1] Glance: Accelerating Diffusion Models with 1 Sample

       原文標題 : 僅用1張圖1小時,比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學(xué)”顛覆擴散模型!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號