訂閱
糾錯
加入自媒體

多任務(wù)多模態(tài)全統(tǒng)一!港科大&快手可靈等最新UnityVideo:生成、理解、控制多項SOTA!

作者:Jiehui Huang等

解讀:AI生成未來

亮點直擊

統(tǒng)一框架UnityVideo,一個統(tǒng)一的多模態(tài)、多任務(wù)視頻生成與理解框架。在基于DiT的架構(gòu)中,實現(xiàn)了文本到視頻生成、可控視頻生成以及視頻模態(tài)估計(如深度、光流、骨骼等)的聯(lián)合學習。

雙向互促:通過聯(lián)合訓練,驗證了多模態(tài)學習不僅能實現(xiàn)任務(wù)的大一統(tǒng),還能加速模型收斂,并增強模型對物理世界的理解能力(如物體折射、碰撞動力學)。

零樣本泛化:模型展現(xiàn)了強大的零樣本(Zero-shot)泛化能力,能夠處理訓練數(shù)據(jù)中未見過的物體和風格。

貢獻了大規(guī)模統(tǒng)一數(shù)據(jù)集 OpenUni(130萬對多模態(tài)樣本)和高質(zhì)量評測基準 UniBench(包含Unreal Engine渲染的真值數(shù)據(jù))。

解決的問題

單一模態(tài)的局限性:現(xiàn)有的視頻生成模型大多局限于單一模態(tài)(主要是 RGB),缺乏全面的世界理解能力(World-Awareness)。

物理常識的缺失:僅靠 RGB 視頻訓練,模型傾向于擬合分布而非進行物理推理,難以捕捉復(fù)雜的物理動態(tài)(如深度關(guān)系、運動規(guī)律)。

訓練范式的割裂:以往的研究通常將視頻生成、可控生成和模態(tài)估計作為獨立任務(wù)處理,或者僅進行單向交互,缺乏統(tǒng)一訓練帶來的協(xié)同效應(yīng)。

提出的方案

全能型 DiT 架構(gòu):UnityVideo 將視頻生成(Video Generation)和視覺模態(tài)估計(Video Estimation)整合進同一個流匹配(Flow Matching)框架中。

動態(tài)噪聲調(diào)度:設(shè)計了一種動態(tài)噪聲注入策略,使得模型可以在單次訓練循環(huán)中同時處理條件生成、模態(tài)估計和聯(lián)合生成這三種不同的訓練目標。

模態(tài)自適應(yīng)學習:引入了上下文學習器(In-Context Learner)和模態(tài)切換器(Modality Switcher),使模型能夠區(qū)分并處理多種異構(gòu)模態(tài)信號。

應(yīng)用的技術(shù)

動態(tài)任務(wù)路由 :根據(jù)學習難度為不同任務(wù)(條件生成、估計、聯(lián)合生成)分配不同的采樣概率 ,并對應(yīng)不同的噪聲調(diào)度策略。

上下文學習器 :利用文本提示(如 "depth map", "human skeleton")來引導模型識別模態(tài)類型,而非僅描述視頻內(nèi)容,從而激活模型的上下文推理能力。

模態(tài)自適應(yīng)切換器:在 DiT 塊中引入可學習的模態(tài)嵌入列表 ,通過 AdaLN-Zero 機制生成模態(tài)特定的調(diào)制參數(shù)(scale , shift , gate )。

課程學習:將模態(tài)分為像素對齊(如深度、光流)和非像素對齊(如分割、骨骼)兩組,分階段進行混合訓練以確保穩(wěn)定收斂。

達到的效果

性能優(yōu)越:在 Text-to-Video 生成、可控生成和視頻深度/光流估計任務(wù)上,均達到或超越了現(xiàn)有 SOTA 方法(如 Kling1.6, HunyuanVideo, Aether 等)。

收斂速度提升:相比于單模態(tài)微調(diào),聯(lián)合多模態(tài)訓練顯著降低了訓練損失,加速了收斂。

物理一致性增強:定性實驗顯示,UnityVideo 在生成涉及物理規(guī)律(如玻璃折射、水流)的視頻時,比現(xiàn)有商業(yè)模型更符合物理邏輯。

方法

UnityVideo 在單個 Diffusion Transformer 中統(tǒng)一了視頻生成和多模態(tài)理解。如圖 3 所示,該模型通過共享的 DiT 主干網(wǎng)絡(luò)  處理 RGB 視頻 、文本條件  和輔助模態(tài) 。在訓練過程中,本文動態(tài)采樣任務(wù)類型并應(yīng)用相應(yīng)的噪聲調(diào)度。為了在這個統(tǒng)一架構(gòu)中處理多種模態(tài),本文引入了上下文學習器 和 模態(tài)自適應(yīng)切換器。通過漸進式課程訓練,模型在所有任務(wù)和模態(tài)上實現(xiàn)了同步收斂。

圖 3.UnityVideo 概述。 UnityVideo 通過應(yīng)用于輸入標記的動態(tài)噪聲注入策略(左)實現(xiàn)任務(wù)統(tǒng)一,并通過提出的模態(tài)感知 AdaLN 表(中)實現(xiàn)模態(tài)統(tǒng)一。 具體來說, 分別表示 RGB 模態(tài)和輔助視頻相關(guān)模態(tài)(例如深度、光流、DensePose、骨架)的可學習參數(shù)表。  表示 RGB 視頻內(nèi)容和上下文模態(tài)學習提示的提示條件,而  分別對應(yīng)于 RGB 和輔助模態(tài)的標記序列。圖 3.UnityVideo 概述。 UnityVideo 通過應(yīng)用于輸入標記的動態(tài)噪聲注入策略(左)實現(xiàn)任務(wù)統(tǒng)一,并通過提出的模態(tài)感知 AdaLN 表(中)實現(xiàn)模態(tài)統(tǒng)一。 具體來說,和 分別表示 RGB 模態(tài)和輔助視頻相關(guān)模態(tài)(例如深度、光流、DensePose、骨架)的可學習參數(shù)表。 和 表示 RGB 視頻內(nèi)容和上下文模態(tài)學習提示的提示條件,而 和 分別對應(yīng)于 RGB 和輔助模態(tài)的標記序列。

統(tǒng)一多任務(wù)

傳統(tǒng)的視頻生成模型通常孤立地針對特定任務(wù)進行訓練,限制了它們利用跨任務(wù)知識的能力。本文擴展了流匹配(flow matching)框架,以在單一架構(gòu)中支持三種互補的訓練范式。UnityVideo 同時處理三個目標:從輔助模態(tài)生成 RGB 視頻 (),從 RGB 視頻估計輔助模態(tài) (),以及從噪聲聯(lián)合生成兩者 ()。 和  token 沿寬度維度拼接,并通過自注意力模塊進行交互。遵循文獻 [18, 38],本文在 DiT 主干的自注意力中結(jié)合了 3D RoPE,以有效區(qū)分跨模態(tài)的時空位置。

動態(tài)任務(wù)路由 。為了實現(xiàn)這三種范式的并發(fā)優(yōu)化,本文在訓練期間引入了概率任務(wù)選擇。在每次迭代中,以概率 、 和 (其中 )采樣一種任務(wù)類型,這決定了在時間步  應(yīng)用于 RGB 和模態(tài) token 的噪聲調(diào)度。對于條件生成(如圖 3 右側(cè)所示),RGB token 從噪聲逐漸去噪 (),而模態(tài) token 保持干凈 ()。對于模態(tài)估計,RGB token 保持干凈,而模態(tài) token 被加噪。對于聯(lián)合生成,兩種類型的 token 都獨立地被噪聲破壞。本文分配的任務(wù)概率與其學習難度成反比:。這種策略防止了順序階段式訓練中常見的災(zāi)難性遺忘,允許模型并發(fā)地學習所有三種分布。

統(tǒng)一多模態(tài)

不同模態(tài)的聯(lián)合訓練可以顯著提升單個任務(wù)的性能,如圖 2 所示。然而,使用共享參數(shù)處理不同模態(tài)需要顯式的機制來區(qū)分它們。本文引入了兩種互補的設(shè)計:用于語義級模態(tài)感知的上下文學習器,和用于架構(gòu)級調(diào)制的模態(tài)自適應(yīng)切換器。

圖 2.統(tǒng)一模式的培訓有利于視頻生成。 統(tǒng)一的多模態(tài)和多任務(wù)聯(lián)合訓練在 RGB 視頻生成上實現(xiàn)了最低的最終損失,優(yōu)于單模態(tài)聯(lián)合訓練和 RGB 微調(diào)基線。圖 2.統(tǒng)一模式的培訓有利于視頻生成。 統(tǒng)一的多模態(tài)和多任務(wù)聯(lián)合訓練在 RGB 視頻生成上實現(xiàn)了最低的最終損失,優(yōu)于單模態(tài)聯(lián)合訓練和 RGB 微調(diào)基線。

上下文學習器 。為了利用模型固有的上下文推理能力,本文注入了描述模態(tài)類型(例如,“深度圖 (depth map)”、“人體骨骼 (human skeleton)”)而非視頻內(nèi)容的模態(tài)特定文本提示 。這一設(shè)計與描述內(nèi)容的標題  有根本區(qū)別。給定拼接的 RGB token  和模態(tài) token ,本文分別執(zhí)行雙分支交叉注意力: 用于帶有內(nèi)容標題的 RGB 特征,以及  用于帶有類型描述的模態(tài)特征,然后再將它們重新組合以進行后續(xù)處理。這種輕量級機制引入的計算開銷可以忽略不計,同時實現(xiàn)了組合泛化。例如,使用短語“兩個人”進行訓練允許模型在分割任務(wù)期間泛化到“兩個物體”,因為模型學會了解釋模態(tài)級的語義,而不是記憶特定內(nèi)容的模式。詳細分析在實驗部分提供。

模態(tài)自適應(yīng)切換器 。雖然基于文本的區(qū)分提供了語義感知,但隨著模態(tài)數(shù)量的擴展,這種方式可能變得不足。因此,本文為  種模態(tài)引入了一個可學習的嵌入列表 ,以實現(xiàn)顯式的架構(gòu)級調(diào)制。在每個 DiT 塊內(nèi),AdaLN-Zero基于時間步嵌入為 RGB 特征生成調(diào)制參數(shù)(縮放 ,平移 ,門控 )。本文通過學習模態(tài)特定參數(shù)來擴展這一機制:,其中  是模態(tài)嵌入, 是時間步嵌入。這一設(shè)計實現(xiàn)了推理過程中的即插即用模態(tài)選擇。為了進一步減少模態(tài)混淆并穩(wěn)定輸出,本文初始化了模態(tài)專家輸入-輸出層,作為每種模態(tài)的專用編碼和預(yù)測頭。

訓練策略

多模態(tài)課程學習簡單地從頭開始聯(lián)合訓練所有模態(tài)會導致收斂緩慢和性能次優(yōu)。我們將模態(tài)根據(jù)其空間對齊屬性分為兩組。像素對齊模態(tài)(光流、深度、DensePose)允許與 RGB 幀建立直接的像素到像素對應(yīng)關(guān)系,而像素非對齊模態(tài)(分割掩碼、骨骼)則包含更抽象的幾何表示且需要額外的視覺渲染步驟。

采用兩階段課程策略:第一階段(Stage 1) 僅在經(jīng)過篩選的單人數(shù)據(jù)上訓練 RGB 視頻和像素對齊模態(tài),為空間對應(yīng)關(guān)系的學習建立堅實基礎(chǔ)。第二階段(Stage 2) 引入所有模態(tài)以及多樣化的場景數(shù)據(jù)集,涵蓋以人為中心和通用的場景。這種漸進式策略使得模型能夠理解所有五種模態(tài),同時支持對未見模態(tài)組合的魯棒零樣本(zero-shot)推理。

OpenUni 數(shù)據(jù)集我們的訓練數(shù)據(jù)包含 130 萬個視頻片段,涵蓋五種模態(tài):光流、深度、DensePose、骨骼和分割。如圖 4 所示,我們從多個來源收集真實世界的視頻,并使用預(yù)訓練模型提取模態(tài)標注。數(shù)據(jù)集包括 370,358 個單人片段、97,468 個雙人片段、489,445 個來自 Koala36M的片段,以及 343,558 個來自 OpenS2V 的片段,共計 130 萬個樣本用于訓練。為了防止對特定數(shù)據(jù)集或模態(tài)的過擬合,我們將每個批次(batch)劃分為四個平衡的組,確保在所有模態(tài)和來源中進行均勻采樣。

圖4。OpenUni數(shù)據(jù)集。OpenUni包含130萬對統(tǒng)一的多模態(tài)數(shù)據(jù),旨在豐富視頻模態(tài),賦予更全面的世界感知圖4。OpenUni數(shù)據(jù)集。OpenUni包含130萬對統(tǒng)一的多模態(tài)數(shù)據(jù),旨在豐富視頻模態(tài),賦予更全面的世界感知

訓練目標

遵循條件流匹配(Conditional Flow Matching),本文框架采用一種動態(tài)訓練策略,通過選擇性地對不同模態(tài)添加噪聲,在三種模式之間自適應(yīng)切換。特定模式的損失函數(shù)如下:

條件生成損失 (Conditional Generation Loss):

模態(tài)估計損失 (Modality Estimation Loss):

聯(lián)合生成損失 (Joint Generation Loss):

其中  和  表示在時間步  的插值潛變量(latents), 和  分別代表 RGB 視頻和輔助模態(tài)(如光流、深度)。速度場定義為  和 ,其中  是從真實數(shù)據(jù)編碼的純凈潛變量,而  是獨立的分布高斯噪聲。文本條件  從預(yù)訓練的文本編碼器獲得。

公式 (1) 實現(xiàn)了從輔助模態(tài)條件生成 RGB 視頻,公式 (2) 執(zhí)行從 RGB 視頻進行模態(tài)估計,而公式 (3) 則從文本聯(lián)合生成兩種模態(tài)。

在訓練過程中,批次中的每個樣本被隨機分配到這三種模式之一,使得所有任務(wù)都能在單個優(yōu)化步驟中貢獻梯度。這種統(tǒng)一的公式允許在單個架構(gòu)內(nèi)進行無縫的多任務(wù)學習。

實驗

為了驗證 UnityVideo 的有效性,本文在多個基準上進行了廣泛的實驗。

實驗設(shè)置

數(shù)據(jù)集:使用了本文提出的 OpenUni 數(shù)據(jù)集,包含 130 萬對多模態(tài)視頻數(shù)據(jù)。

評測指標

視頻生成:使用 VBench 評估,包括主觀一致性、背景一致性、美學質(zhì)量、時間閃爍等指標。

深度估計:在 UniBench 數(shù)據(jù)集上評估,報告絕對相對誤差 (AbsRel) 和閾值準確率 ()。

視頻分割:報告平均精度 (mAP) 和平均交并比 (mIoU)。

主要結(jié)果

定量比較:如表 1 所示,UnityVideo 在文本生成視頻、可控生成和視頻估計任務(wù)上均取得了優(yōu)異成績。

在 T2V 任務(wù)中,UnityVideo 在所有指標上均優(yōu)于 Kling1.6、OpenSora2、HunyuanVideo-13B 等模型。

在可控生成方面,相比 ControlNet 類方法(如 VACE),在一致性和動態(tài)程度上表現(xiàn)更好。

在視頻估計方面,其深度估計和分割精度超越了專用模型(如 DepthCrafter, SAMWISE)。

定性比較

物理感知:相比其他模型,UnityVideo 能更準確地反映物理現(xiàn)象(如水的折射)。

細節(jié)與一致性:在深度引導生成中,UnityVideo 既忠實于深度信息,又保持了高視頻質(zhì)量,避免了背景閃爍。具體見下圖5.圖5。與不同任務(wù)中SOTA方法的比較。UnityVideo展現(xiàn)出更優(yōu)越的物理推理能力,更好地遵守控制條件,并對輔助模態(tài)有更深入的理解。圖5。與不同任務(wù)中SOTA方法的比較。UnityVideo展現(xiàn)出更優(yōu)越的物理推理能力,更好地遵守控制條件,并對輔助模態(tài)有更深入的理解。

消融實驗

多模態(tài)的影響:表 2 顯示,聯(lián)合訓練多種模態(tài)(如深度+光流)比單獨訓練單一模態(tài)帶來了一致的性能提升,特別是在圖像質(zhì)量和整體一致性上。

多任務(wù)訓練的影響:表 3 表明,如果僅訓練“可控生成”任務(wù),性能會下降;而引入“聯(lián)合生成”的多任務(wù)訓練可以恢復(fù)甚至超越基線性能。

架構(gòu)設(shè)計的影響:表 4 和圖 6 證明,上下文學習器模態(tài)切換器各自都能提升性能,而兩者結(jié)合使用效果最佳。

模型分析與用戶研究

泛化能力:圖 7 展示了上下文學習器使得模型能夠?qū)⑨槍?ldquo;人”的訓練泛化到未見過的“物體”分割上。

用戶研究:在包含 70 個樣本的人工評估中,UnityVideo 在物理質(zhì)量、語義質(zhì)量和整體偏好上均獲得了最高評分(表 5)。

總結(jié)

UnityVideo,這是一個在單一 Diffusion Transformer 中對多種視覺模態(tài)和任務(wù)進行建模的統(tǒng)一框架。通過利用模態(tài)自適應(yīng)學習,UnityVideo 實現(xiàn)了 RGB 視頻與輔助模態(tài)(深度、光流、分割、骨骼和 DensePose)之間的雙向?qū)W習,從而在兩類任務(wù)上都實現(xiàn)了相互增強。本文的實驗展示了其在不同基準上的最先進性能,以及對未見模態(tài)組合的強大零樣本泛化能力。為了支持這項研究,本文貢獻了 OpenUni,這是一個包含 130 萬同步樣本的大型多模態(tài)數(shù)據(jù)集,以及 UniBench,這是一個帶有真值標注的高質(zhì)量評估基準。UnityVideo 為統(tǒng)一多模態(tài)建模鋪平了道路,是邁向下一代世界模型的重要一步。

參考文獻

[1] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

       原文標題 : 多任務(wù)多模態(tài)全統(tǒng)一!港科大&快手可靈等最新UnityVideo:生成、理解、控制多項SOTA!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號