123,123

角色動畫最新SOTA！港大&螞蟻等CoDance：解綁-重綁實現(xiàn)任意數(shù)量、位置角色同屏起舞

2026-01-20 13:48

作者：Shuai Tan等

解讀：AI生成未來

圖1。由CoDance生成的多主體動畫。給定一個（可能錯位的）驅動姿勢序列和一張多主體參考圖像，CoDance生成協(xié)調且可姿勢控制的群舞，無需每個主體的空間對齊。圖1。由CoDance生成的多主體動畫。給定一個（可能錯位的）驅動姿勢序列和一張多主體參考圖像，CoDance生成協(xié)調且可姿勢控制的群舞，無需每個主體的空間對齊。

亮點直擊

首創(chuàng)性框架：CoDance，這是首個能夠基于單一且可能未對齊的姿態(tài)序列，同時實現(xiàn)角色圖像動畫化中“四個任意”屬性的方法：任意主體類型、任意數(shù)量、任意空間位置和任意姿態(tài)。

Unbind-Rebind 范式：設計了一種新穎的“解綁-重綁”（Unbind-Rebind）策略，系統(tǒng)性地將姿態(tài)與參考圖像中過硬的空間綁定解耦，并通過語義和空間線索重新建立控制。構建了全新的多主體動畫基準 CoDanceBench，填補了該領域評估標準的空白。

SOTA：在 CoDanceBench 和現(xiàn)有的Follow-Your-Pose-V2 基準上，該方法在各項指標上均取得了SOTA性能，展現(xiàn)了強大的泛化能力。

解決的問題

多主體生成的局限性：現(xiàn)有的角色動畫方法（如 Animate Anyone, MagicAnimate 等）主要針對單人動畫設計，難以處理任意數(shù)量的主體。

空間未對齊難題：現(xiàn)有方法依賴于姿態(tài)與參考圖像之間嚴格的像素級空間綁定（rigid spatial binding）。當參考圖像與驅動姿態(tài)在空間上不一致（misalignment）時（例如參考圖中有兩個角色，而姿態(tài)只有一個，或者位置不對應），模型容易失效，產(chǎn)生偽影或錯誤的身份綁定。

目標重定向失敗：在嘗試解耦空間位置后，模型往往無法將動作準確地重新綁定（rebind）到預期的特定主體上，導致背景被錯誤驅動或主體丟失。

圖2。CoDance動機。雖然在單人動畫方面表現(xiàn)出色，但以往方法在處理多主體時因參考姿勢與目標姿勢綁定僵硬導致輸出不匹配而失效。相比之下，我們的解綁-再綁定方法成功將運動與外觀脫鉤，產(chǎn)生了令人信服的結果。圖2。CoDance動機。雖然在單人動畫方面表現(xiàn)出色，但以往方法在處理多主體時因參考姿勢與目標姿勢綁定僵硬導致輸出不匹配而失效。相比之下，我們的解綁-再綁定方法成功將運動與外觀脫鉤，產(chǎn)生了令人信服的結果。

提出的方案

核心架構：基于 Diffusion Transformer (DiT) 的 Unbind-Rebind 框架。

Unbind（解綁）模塊：

引入姿態(tài)偏移編碼器（Pose Shift Encoder）。

Pose Unbind：在輸入層面，對骨架位置/大小進行隨機變換，打破物理對齊。

Feature Unbind：在特征層面，對姿態(tài)特征進行隨機復制和疊加，迫使模型學習位置無關的動作語義。

Rebind（重綁）模塊：

語義重綁：引入文本分支，利用混合數(shù)據(jù)訓練策略（聯(lián)合訓練動畫數(shù)據(jù) 和大規(guī)模文生視頻數(shù)據(jù) ），通過文本提示明確指定動畫的主體身份和數(shù)量。

空間重綁：利用離線分割模型（如 SAM）獲取參考圖像的主體掩碼（Mask），作為外部條件將動作精確限制在目標區(qū)域內。

應用的技術

主干網(wǎng)絡：采用 DiT (Diffusion Transformer) 作為基礎生成模型，利用其可擴展性處理視頻生成。

數(shù)據(jù)增強與訓練策略：

隨機平移與縮放增強。

特征層面的 Region Duplication（區(qū)域復制）。

混合訓練（Mixed-data training）：以概率訓練動畫任務，以訓練通用文生視頻（T2V）任務。

多模態(tài)條件注入：

umT5 Encoder：處理文本提示，通過 Cross-Attention 注入。

Mask Encoder：處理 SAM 生成的主體掩碼，通過卷積提取特征并與噪聲潛在變量逐元素相加（Element-wise Summation）。

VAE Encoder：提取參考圖像的潛在特征。

LoRA：用于微調預訓練的 T2V 模型。

達到的效果

定量指標提升：在視頻質量、身份保持（Identity Preservation）和時序一致性（Temporal Consistency）等指標上，顯著優(yōu)于 MagicAnimate, Animate Anyone, UniAnimate 等 SOTA 方法。

定性表現(xiàn)優(yōu)異：能夠生成協(xié)調的群舞，支持從單人到多人的泛化，且不需要針對每個主體進行空間預對齊。即使在參考圖像復雜、主體數(shù)量多變的情況下，也能保持主體身份特征和動作的準確性。用戶調研顯示其偏好率大幅領先。

方法

如圖 3 所示，CoDance 的流程主要包含以下步驟。給定參考圖像、驅動姿態(tài)序列和文本提示，本工作首先獲得參考圖像的主體掩碼，并將驅動動作傳播到任意數(shù)量、不同類型的主體上，同時保持與參考圖像的身份一致性。與以往關注近乎對齊輸入的工作不同，本文明確處理了與之間的未對齊、非人類/擬人化角色以及多主體場景。

圖3。CoDance流程圖3。CoDance流程

預備知識

擴散模型。擴散模型是生成模型，通過反轉加噪過程來生成數(shù)據(jù)。這涉及兩個階段：逐漸向干凈數(shù)據(jù) 添加高斯噪聲的前向過程，以及學習去除噪聲的反向過程。一個關鍵屬性是任何噪聲樣本都可以直接從獲得。生成任務通過訓練一個網(wǎng)絡來完成，該網(wǎng)絡在給定時間步和可選條件的情況下，從噪聲輸入中預測噪聲。模型通過以下目標函數(shù)進行優(yōu)化：

對于條件生成，通常使用無分類器引導（classifier-free guidance）來增強條件的影響。

擴散 Transformer (DiT) 。雖然早期的擴散模型使用 U-Net 架構，但 Diffusion Transformer (DiT)證明了標準 Transformer 可以作為一個高效且可擴展的主干網(wǎng)絡。在 DiT 框架中，輸入圖像首先被劃分為不重疊的補�。╬atches），類似于 Vision Transformer (ViT)。這些補丁與時間步和條件（例如姿態(tài)骨架）的嵌入一起被轉換為標記（tokens）序列。然后，該標記序列由 Transformer 塊處理以預測輸出噪聲。

解綁-重綁

如圖 2 所示，以前的方法通常強制參考圖像與目標姿態(tài)之間存在剛性的空間綁定。只要類人參考圖像與目標姿態(tài)在空間上對齊，這種范式在單人動畫中就能生成正確的結果。然而，它們受限于不匹配的情況，例如參考圖像中的主體數(shù)量與目標姿態(tài)不同。由于依賴剛性空間對齊，模型無法正確動畫化參考圖像中的主體。相反，它會在相應的空間區(qū)域幻覺出一個新的、與姿態(tài)對齊的人。為了克服這一根本限制，本文提出了一種新范式：Unbind-Rebind（解綁-重綁），它打破了因輸入不匹配導致的強制空間對齊，并重新建立動作與身份之間的正確對應關系。

Unbind（解綁）。Unbind 模塊旨在拆除參考圖像與姿態(tài)之間這種僵化的空間約束。本文不再依賴簡單的空間映射，而是迫使模型（特別是姿態(tài)編碼器和擴散網(wǎng)絡）去學習動作本身的抽象語義理解。為此，本文提出了新穎的姿態(tài)偏移編碼器（Pose Shift Encoder），它由 Pose Unbind（姿態(tài)解綁）和 Feature Unbind（特征解綁）模塊組成，分別在輸入層級和特征層級增強模型的理解能力。其核心洞察在于，在每個訓練步驟中，有意且隨機地破壞參考圖像與目標姿態(tài) 之間的自然對齊，從而確保模型無法依賴僵化的空間對應關系。具體而言，Pose Unbind 模塊作用于輸入層級。在每個訓練步驟中，本文首先按照先前的方法采樣參考圖像及其對應的驅動姿態(tài) 。然而，本文并不直接將這對數(shù)據(jù)輸入模型，而是對驅動姿態(tài) 應用一系列變換。打破空間關聯(lián)最直觀的方法是改變姿態(tài)的位置和比例。因此，在每一步中，本文隨機平移骨架的位置，即，并隨機縮放其大小，進一步將其與原始空間位置解耦。

然而，僅靠 Pose Unbind 主要增強的是姿態(tài)編碼器解釋姿態(tài)變化的能力。核心的生成過程嚴重依賴于擴散網(wǎng)絡。為此，本文引入了 Feature Unbind 模塊，它作用于特征層級。在變換后的姿態(tài)通過姿態(tài)編碼器后，本文對生成的姿態(tài)特征應用進一步的增強。首先，應用類似的隨機平移。此外，為了迫使擴散模型適應特征空間內的各種姿態(tài)配置，本文提取對應于姿態(tài)的特征區(qū)域，將其隨機復制，并將這些副本疊加到原始特征圖上。這一過程迫使擴散模型發(fā)展出對姿態(tài)更魯棒的語義理解，并增強其在復雜條件下的生成能力。

Rebind（重綁）。經(jīng)過 Unbind 操作后，雖然模型能夠從姿態(tài)圖像中掌握動作的語義含義，但它缺少了指定動畫目標主體的關鍵信息，因為原始的空間對齊已被特意打破。為了解決這個問題，本文引入了 Rebind 模塊，它可以智能地將理解到的動作與參考圖像中的正確主體重新關聯(lián)起來。具體來說，本文通過兩個互補的層面來執(zhí)行 Rebind：語義（Semantic）和空間（Spatial）。

從語義角度來看，本文引入了一個文本驅動的引導分支，利用輸入文本提示明確指定參考圖像中需要動畫化的主體身份和數(shù)量。如圖 3 所示，參考圖像包含多個元素，其中包括五個擬人化角色作為動畫目標。相應的提示詞（如“五個氣泡在跳舞”）經(jīng)過文本編碼器處理后，輸入到 DiT 模塊中以提供語義指導。然而，僅在具有統(tǒng)一文本提示的動畫數(shù)據(jù)集（）上進行訓練會帶來一個重大挑戰(zhàn)：模型傾向于過擬合提示詞，學習到虛假的相關性并忽略文本指導，這嚴重損害了推理時的泛化能力。為了抵消這一點，本文提出了一種混合數(shù)據(jù)訓練策略（mixed-data training strategy）。本文加入了一個輔助的、多樣化的“文本-圖像-視頻”（TI2V）數(shù)據(jù)集（），并分別以概率和在角色動畫任務和 T2V 任務之間交替訓練。這種雙目標訓練迫使模型超越簡單的模式匹配，發(fā)展出對文本條件的魯棒理解。反過來，這也使其能夠在推理過程中根據(jù)任意文本提示，準確地從參考圖像中重新綁定指定的主體。

雖然語義指導很強大，但它不能解決“圖-底”模糊（figure-ground ambiguity）的挑戰(zhàn)，特別是對于具有復雜或非常規(guī)形態(tài)的主體。這種模糊可能導致模型無法準確分割主體，導致背景被錯誤動畫化或主體部分缺失。為了強制精確的空間控制，本文引入了空間重綁機制，提供一個參考掩碼來明確定義動畫區(qū)域。這種直接的空間重綁確保動畫嚴格限制在指定的邊界內，有效地減輕分割錯誤并保持主體的結構完整性。

框架與實現(xiàn)細節(jié)

鑒于先前工作的成功，CoDance 建立在常用的 Diffusion Transformer (DiT)之上。如圖 3 所示，給定一個參考圖像，本文采用 VAE 編碼器提取其潛在表示。遵循文獻[64]的方法，該潛在表示隨后直接作為去噪網(wǎng)絡輸入的一部分。為了促進精確的外觀重綁（appearance rebind），本文利用預訓練的分割模型（例如 SAM）從中提取對應的主體掩碼。該掩碼隨后被輸入到一個由堆疊的 2D 卷積層組成的掩碼編碼器（Mask Encoder）中。生成的掩碼特征隨后通過逐元素求和的方式融入到噪聲潛在向量中。同時，本文引入 umT5 Encoder進行語義理解。文本特征通過 DiT 塊內的交叉注意力層整合到生成過程中。對于驅動視頻，本文采用前述的姿態(tài)偏移編碼器。模型初始化自預訓練的 T2V 模型，并使用 LoRA 進行微調。最后，VAE 解碼器重建視頻。注意，Unbind 模塊和混合數(shù)據(jù)訓練僅應用于訓練階段。

實驗

用戶調研

為了量化感知質量，本文進行了一項全面的用戶調研。該調研涉及向 10 名參與者進行的成對 A/B 偏好測試。本文使用了 20 個不同的身份和 20 個驅動視頻，從 9 種評估方法中分別生成了 20 個動畫。在每次試驗中，參與者會看到兩個由不同方法生成的并排視頻，并被要求根據(jù)三個標準選擇更好的結果：(1)視頻質量，(2)身份保持，以及 (3)時序一致性。如表 3 總結所示，CoDance 在所有三個標準上都取得了最高的偏好率，證明了其明顯的感知優(yōu)勢。具體數(shù)據(jù)如下：

Video Quality: 0.90 (CoDance) vs 0.79 (UniAnimateDiT)

Identity Preservation: 0.88 (CoDance) vs 0.50 (UniAnimateDiT)

Temporal Consistency: 0.83 (CoDance) vs 0.78 (UniAnimateDiT)

消融實驗

本節(jié)展示了消融研究，旨在分離 CoDance 中 Unbind 和 Rebind 模塊的貢獻與必要性。實驗設計為漸進式消融：

Baseline (基線)：移除 Unbind 和 Rebind 模塊。模型按照剛性對齊范式（遵循[64]）訓練，以動畫化參考圖像。

B + Unbind：在基線之上，添加 Unbind 模塊以打破參考圖像與驅動姿態(tài)之間的剛性對齊。

B + Unbind + Spatial Rebind：在 (2) 的基礎上，結合掩碼條件進行空間重綁。

Full Model (完整模型)：包含所有模塊。

如圖 5 所示：

Baseline：受限于剛性對齊，合成了一個與驅動姿態(tài)在空間上對齊的新角色，從而丟失了參考身份。

B + Unbind：引入 Unbind 模塊修正了身份問題，保留了參考身份并展示了成功的解耦。然而，它無法生成連貫的動作，表明無法定位動畫的目標區(qū)域。

B + Unbind + Spatial Rebind：添加空間重綁解決了定位問題，動畫化了正確的區(qū)域。然而，它將多個主體視為單一的復合實體，導致碎片化的動畫（例如，動畫化每個角色的一只手，而不是一個角色的全身）。

Full Model：集成了 Unbind 和完整的 Rebind 機制（包含語義重綁），取得了優(yōu)異的結果。

這一遞進過程驗證了框架中每個提議模塊的關鍵性和互補作用。

圖4。與SOTA方法的定性比較。圖4。與SOTA方法的定性比較。

總結

CoDance，一種為跨越任意主體數(shù)量、類型和空間布局的魯棒動畫而設計的新穎框架。我們識別出，在多主體場景中普遍存在的身份退化和動作分配錯誤源于現(xiàn)有方法中的剛性空間綁定。為了克服這一點，我們提出了 Unbind-Rebind（解綁-重綁）范式，該范式首先將動作從其嚴格的空間上下文中解綁，然后使用互補的語義和空間指導將此動作重新綁定到正確的主體上。通過這種方式，CoDance 展示了強大的泛化能力和魯棒性，實現(xiàn)了靈活的多主體動畫。在 Follow-Your-Pose-V2 基準和我們新引入的 CoDanceBench 上的廣泛實驗證明，我們提出的方法優(yōu)于 SOTA 方法。

參考文獻

[1] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

原文標題 : 角色動畫最新SOTA！港大&螞蟻等CoDance：解綁-重綁實現(xiàn)任意數(shù)量、位置角色同屏起舞