訂閱
糾錯
加入自媒體

NeurIPS 2025 | 硬剛可靈1.5!阿里通義&清華等開源Wan-Move:指哪動哪的“神筆馬良”

作者:Ruihang Chu等

解讀:AI生成未來

亮點直擊

Wan-Move,一個用于圖像到視頻生成中運(yùn)動控制的框架。與需要運(yùn)動編碼的現(xiàn)有方法不同,它通過編輯條件特征注入運(yùn)動引導(dǎo),無需添加新模塊,從而易于大規(guī)模微調(diào)基礎(chǔ)模型。

引入了MoveBench,一個全面且精心策劃的基準(zhǔn)來評估運(yùn)動控制。一個混合了人工和SAM的標(biāo)注流程確保了標(biāo)注質(zhì)量。

在MoveBench和公共數(shù)據(jù)集上進(jìn)行的大量實驗表明,Wan-Move支持多樣化的運(yùn)動控制任務(wù),并通過大規(guī)模訓(xùn)練提供商業(yè)級結(jié)果。

總結(jié)速覽

解決的問題

現(xiàn)有視頻生成模型在運(yùn)動控制方面存在控制粒度粗糙、可擴(kuò)展性有限的問題,導(dǎo)致生成效果難以滿足實際應(yīng)用需求。

提出的方案

提出了Wan-Move框架,通過直接編輯原始條件特征來注入細(xì)粒度運(yùn)動控制。其核心是:1)用密集點軌跡表示物體運(yùn)動;2)將軌跡投影至隱空間并沿軌跡傳播首幀特征,生成對齊的時空運(yùn)動特征圖;3)將該特征圖作為運(yùn)動條件,無縫集成至現(xiàn)有圖像到視頻基礎(chǔ)模型(如Wan-I2V-14B)。

應(yīng)用的技術(shù)

基于密集點軌跡的細(xì)粒度運(yùn)動表示

隱空間特征投影與傳播技術(shù)

無需修改架構(gòu)的即插即用式運(yùn)動條件注入方法

用于基準(zhǔn)評估的混合標(biāo)注流程(人工+SAM)

達(dá)到的效果

實現(xiàn)精確、高質(zhì)量的運(yùn)動控制,支持多樣化控制任務(wù)

生成5秒480p視頻,運(yùn)動控制質(zhì)量媲美商業(yè)級產(chǎn)品(如Kling 1.5 Pro Motion Brush)

無需額外運(yùn)動編碼器,大幅提升框架可擴(kuò)展性,支持大規(guī);A(chǔ)模型微調(diào)

構(gòu)建MoveBench評估基準(zhǔn),提供高質(zhì)量、長時長、大數(shù)據(jù)的運(yùn)動標(biāo)注測試集

架構(gòu)方法

視頻擴(kuò)散模型在正向過程中向干凈數(shù)據(jù)添加高斯噪聲,并學(xué)習(xí)反向過程以去噪和生成視頻。為了降低計算成本,去噪網(wǎng)絡(luò)通常在從預(yù)訓(xùn)練VAE獲得的潛在視頻表示上操作。給定輸入視頻,編碼器壓縮時間和空間維度,壓縮比分別為(時間)和(空間),同時將通道維度擴(kuò)展到,得到。解碼器然后從潛在表示重建視頻。

本文工作專注于運(yùn)動可控的圖像到視頻(I2V)生成,其中模型需要根據(jù)輸入的第一幀圖像和運(yùn)動軌跡生成運(yùn)動連貫的視頻。雖然第一幀將通過VAE編碼成條件特征,但運(yùn)動軌跡(可以以不同格式表示)仍保留在像素空間中。因此,關(guān)鍵挑戰(zhàn)在于如何有效地將運(yùn)動軌跡編碼成條件特征并將其注入生成模型。為了避免與額外運(yùn)動編碼器和融合模塊相關(guān)的信號退化和訓(xùn)練困難,本文旨在開發(fā)一個無需架構(gòu)修改即可利用現(xiàn)有I2V模型的運(yùn)動控制框架。

潛在軌跡引導(dǎo)

為了實現(xiàn)以第一幀為條件的視頻生成,流行的I2V模型采用的一種有效方法是將潛在噪聲和第一幀條件特征沿通道維度拼接起來。

通過使用預(yù)訓(xùn)練VAE編碼器編碼第一幀以及零填充的后續(xù)幀獲得:

對于運(yùn)動引導(dǎo)表示,本文遵循先前研究,采用點軌跡,因為它們提供細(xì)粒度控制并捕獲局部和全局運(yùn)動。形式上,長度為的點軌跡可以表示為,其中指定了像素空間中第幀的軌跡位置。現(xiàn)有方法通常采用輔助模塊來編碼軌跡并將其集成到骨干網(wǎng)絡(luò)中。然而,這種方法可能會在運(yùn)動編碼過程中降低運(yùn)動信號。此外,訓(xùn)練額外的模塊增加了大規(guī)模微調(diào)基礎(chǔ)模型的復(fù)雜性。這引出了一個關(guān)鍵問題:能否在沒有輔助模塊的情況下注入像素空間運(yùn)動引導(dǎo)?

直觀地說,I2V生成旨在動畫化第一幀,而運(yùn)動軌跡指定了每個后續(xù)幀中物體的位置。鑒于VAE模型的平移等變性,相應(yīng)軌跡位置的隱空間特征應(yīng)與第一幀中的特征非常相似。受此啟發(fā),本文提出通過空間映射直接將軌跡編碼到隱空間,從而消除對額外運(yùn)動編碼器的需求,如如下公式所示:

第一幀的潛在軌跡位置通過空間映射獲得,而后續(xù)幀的潛在軌跡位置則在每個連續(xù)的幀上取平均。這確定性地將像素空間軌跡轉(zhuǎn)換為隱空間。為了注入獲得的潛在軌跡,本文提取第一幀在初始軌跡點處的隱空間特征,并根據(jù)將其復(fù)制到后續(xù)幀中,利用隱空間特征的平移等變性,如下圖2(a)所示。

其中,表示時間索引、高度和寬度處的特征向量。此操作通過更新有效地將運(yùn)動引導(dǎo)注入條件特征,消除了對顯式運(yùn)動條件特征和注入模塊的需求。Wan-Move生成框架的概述如下圖2(b)所示。當(dāng)多個可見點軌跡在給定的時空位置重合時,本文隨機(jī)選擇一個軌跡對應(yīng)的第一幀特征。

訓(xùn)練和推理

訓(xùn)練數(shù)據(jù)  本文整理了一個高質(zhì)量的訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集經(jīng)過嚴(yán)格的兩階段過濾,以確保視覺質(zhì)量和運(yùn)動一致性。首先,手動標(biāo)注了1,000個樣本的視覺質(zhì)量,并使用它們訓(xùn)練了一個專家評分模型進(jìn)行初步質(zhì)量評估。為了進(jìn)一步提高時間連貫性,本文引入了運(yùn)動質(zhì)量過濾階段。具體來說,對于每個視頻,本文從第一幀中提取SigLIP特征,并計算剩余幀的平均SigLIP特征。這些特征之間的余弦相似度作為本文的穩(wěn)定性度量。根據(jù)對10,000個樣本的經(jīng)驗分析,本文建立了一個閾值,只保留內(nèi)容與初始幀保持一致的視頻。這個兩階段流程最終產(chǎn)生了200萬個高質(zhì)量的720p視頻數(shù)據(jù)集,具有強(qiáng)大的視覺質(zhì)量和運(yùn)動連貫性。

模型訓(xùn)練 基于訓(xùn)練數(shù)據(jù)集,本文使用CoTracker來跟蹤密集32x32點網(wǎng)格的軌跡。對于每個訓(xùn)練迭代,本文從混合分布中采樣個軌跡:以5%的概率不使用軌跡();以95%的概率,從1到200中均勻采樣。值得注意的是,本文保留了5%的概率來放棄運(yùn)動條件,這有效地保留了模型原始的圖像到視頻生成能力。對于選定的軌跡,本文提取第一幀特征并將其復(fù)制到后續(xù)的零填充幀中,如上文公式(3)所述。由于CoTracker區(qū)分可見和被遮擋的點軌跡,本文只沿著可見軌跡進(jìn)行特征復(fù)制。在訓(xùn)練期間,模型參數(shù)從I2V模型初始化,并進(jìn)行微調(diào)以預(yù)測向量場,該向量場將樣本從噪聲分布傳輸?shù)綌?shù)據(jù)分布:

其中,表示生成條件的聯(lián)合。

Wan-Move的推理 推理過程與原始I2V模型非常相似,只是增加了一個隱空間特征復(fù)制操作。具體來說,Wan-Move的生成過程依賴于三個輸入條件:(1)文本提示,(2)作為第一幀的輸入圖像,以及(3)用于運(yùn)動控制的稀疏或密集點軌跡。預(yù)訓(xùn)練的umT5和CLIP模型分別用于編碼文本提示和第一幀的全局上下文。生成的圖像嵌入和文本嵌入隨后通過解耦的交叉注意力注入到DiT骨干網(wǎng)絡(luò)中。此外,VAE用于提取第一幀條件特征,該特征將通過隱空間特征復(fù)制注入。應(yīng)用無分類器引導(dǎo)以增強(qiáng)與條件信息的對齊。形式上,設(shè)無條件向量場,以及條件向量場。引導(dǎo)向量場是條件和無條件輸出的加權(quán)組合,其中引導(dǎo)尺度為:

MoveBench

為了對運(yùn)動控制方法進(jìn)行嚴(yán)格、全面的評估,本文引入了一個名為MoveBench的自由許可基準(zhǔn)。與現(xiàn)有基準(zhǔn)相比,MoveBench提供了更多數(shù)據(jù)、更大的多樣性和可靠的運(yùn)動標(biāo)注(如上圖5所示)。具體而言,本文設(shè)計了一個篩選流程,將視頻庫分為54個內(nèi)容類別,每個類別10-25個視頻,產(chǎn)生了1000多個案例,以確保廣泛的場景覆蓋。所有視頻片段均保持5秒的時長,以方便評估長距離動態(tài)。每個片段都配有針對單個或多個物體的詳細(xì)運(yùn)動標(biāo)注。它們包括精確的點軌跡和稀疏的分割掩碼,以適應(yīng)各種運(yùn)動控制模型。通過開發(fā)一個交互式標(biāo)注流程,結(jié)合人工標(biāo)注和SAM預(yù)測,本文確保了標(biāo)注質(zhì)量,兼顧了標(biāo)注精度和自動化可擴(kuò)展性。

實驗

實驗部分對Wan-Move在視頻生成中的運(yùn)動控制能力進(jìn)行了全面評估,并與多種現(xiàn)有方法進(jìn)行了比較。

實驗設(shè)置:Wan-Move基于最先進(jìn)的圖像到視頻生成模型Wan-I2V-14B實現(xiàn),并在一個包含200萬個高質(zhì)量視頻的數(shù)據(jù)集上進(jìn)行微調(diào)。評估指標(biāo)包括FID、FVD、PSNR、SSIM用于衡量視頻質(zhì)量,以及EPE用于評估運(yùn)動精度。所有評估均在480p分辨率下進(jìn)行。

主要結(jié)果單物體運(yùn)動控制:如下表1所示,Wan-Move在MoveBench和DAVIS數(shù)據(jù)集上均顯著優(yōu)于ImageConductor、LeviTor、Tora和MagicMotion等方法,在視頻質(zhì)量(最高PSNR和SSIM)和運(yùn)動控制精度(最低EPE)方面表現(xiàn)最佳。

多物體運(yùn)動控制:在MoveBench中包含192個多物體運(yùn)動場景的挑戰(zhàn)性設(shè)置下,如下表2所示,Wan-Move相比ImageConductor和Tora實現(xiàn)了更低的FVD和EPE,表明其在復(fù)雜場景下對運(yùn)動約束的精確遵守能力。

人類研究:如下表3所示,在與SOTA方法(Tora、MagicMotion、LeviTor、Kling 1.5 Pro)進(jìn)行的雙向強(qiáng)制選擇(2AFC)人類評估中,Wan-Move在運(yùn)動準(zhǔn)確性、運(yùn)動質(zhì)量和視覺質(zhì)量方面均表現(xiàn)出卓越的勝率,尤其是與商業(yè)模型Kling 1.5 Pro相比,Wan-Move在運(yùn)動質(zhì)量方面具有競爭性優(yōu)勢。

消融研究

軌跡引導(dǎo)策略:如下表4和下圖8所示,本文比較了像素復(fù)制、隨機(jī)軌跡嵌入和隱空間特征復(fù)制三種策略。結(jié)果表明,本文提出的隱空間特征復(fù)制方法在視頻質(zhì)量和運(yùn)動控制精度方面均優(yōu)于其他方法,這歸因于其能夠捕獲豐富的局部上下文信息。

條件融合策略:如下表5所示,本文比較了ControlNet和本文的直接拼接方法。結(jié)果顯示,簡單的拼接方法在性能上與ControlNet相當(dāng),但顯著降低了推理延遲,僅增加了3秒,而ControlNet增加了225秒,突顯了本文方法的高效性。

訓(xùn)練期間點軌跡數(shù)量:如下表6所示,本文研究了訓(xùn)練期間最大點軌跡數(shù)量對性能的影響。N=200時達(dá)到最佳性能,過多的軌跡反而可能導(dǎo)致EPE上升,這可能是訓(xùn)練和評估時軌跡密度不匹配造成的。

推理期間點軌跡數(shù)量:如下表7所示,推理時增加點軌跡數(shù)量會顯著降低EPE,提高運(yùn)動引導(dǎo)和時間連貫性。即使模型在最多200個軌跡下訓(xùn)練,也能在多達(dá)1024個軌跡下表現(xiàn)出強(qiáng)大的泛化能力。此外,無點軌跡的I2V推理(如下圖9所示)的PSNR和SSIM與運(yùn)動控制生成相當(dāng),表明模型保留了固有的I2V質(zhì)量。

骨干網(wǎng)絡(luò)和數(shù)據(jù)規(guī)模:如下表8所示,在相同骨干網(wǎng)絡(luò)和數(shù)據(jù)規(guī)模下,Wan-Move即使與MagicMotion和Tora等方法相比,仍能取得更好的結(jié)果,這驗證了本文方法的優(yōu)越性。

大運(yùn)動和分布外運(yùn)動場景:如下表9所示,在包含高幅度運(yùn)動和不常見運(yùn)動的子集上,Wan-Move持續(xù)優(yōu)于基線模型,性能差距進(jìn)一步擴(kuò)大,展示了其強(qiáng)大的泛化能力和魯棒性。

運(yùn)動控制應(yīng)用:Wan-Move支持廣泛的運(yùn)動控制應(yīng)用,如上圖1所示,包括單/多物體控制、相機(jī)控制、原始級別控制(例如旋轉(zhuǎn)虛擬球體)、運(yùn)動遷移和3D旋轉(zhuǎn)控制。

總結(jié)與討論

Wan-Move,一個簡單且可擴(kuò)展的框架,用于視頻生成中精確的運(yùn)動控制。它通過點軌跡表示運(yùn)動,并通過空間映射將其傳輸?shù)綕撛谧鴺?biāo),無需額外的運(yùn)動編碼器。隨后,通過隱空間特征復(fù)制將軌跡引導(dǎo)注入第一幀條件特征,在不改變架構(gòu)的情況下實現(xiàn)了有效的運(yùn)動控制。為了進(jìn)行嚴(yán)格評估,本文進(jìn)一步提出了MoveBench,一個全面且精心策劃的基準(zhǔn),其特點是內(nèi)容類別多樣且具有混合驗證的標(biāo)注。在MoveBench和公共數(shù)據(jù)集上進(jìn)行的大量實驗表明,Wan-Move能夠生成高質(zhì)量、長持續(xù)時間(5秒,480p)的視頻,其運(yùn)動可控性與Kling 1.5 Pro的Motion Brush等商業(yè)工具不相上下。本文相信,這項開源解決方案為大規(guī)模運(yùn)動可控視頻生成提供了一條高效途徑,并將賦能廣泛的創(chuàng)作者。

局限性和更廣泛的影響Wan-Move使用點軌跡來引導(dǎo)運(yùn)動,當(dāng)軌跡因遮擋而缺失時,其可靠性可能會降低。盡管本文觀察到短期遮擋一旦點重新出現(xiàn)即可恢復(fù),顯示出一定程度的泛化能力,但長時間的缺失可能導(dǎo)致控制的喪失(參見附錄)。與其他生成模型一樣,Wan-Move具有雙重用途潛力。它生成逼真、可控視頻的能力可以造福創(chuàng)意產(chǎn)業(yè)、教育和模擬,但也存在被濫用于生成誤導(dǎo)性或有害內(nèi)容的風(fēng)險。

參考文獻(xiàn)

[1] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

       原文標(biāo)題 : NeurIPS 2025 | 硬剛可靈1.5!阿里通義&清華等開源Wan-Move:指哪動哪的“神筆馬良”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號