123,123

真“六邊形戰(zhàn)士”！Capybara把圖像視頻全打通：一個(gè)模型搞定T2I、T2V、I2V！

2026-03-16 16:20

作者：Capybara 團(tuán)隊(duì)

解讀：AI生成未來

亮點(diǎn)直擊

統(tǒng)一的視覺創(chuàng)作模型 Capybara：針對(duì)當(dāng)前視覺內(nèi)容創(chuàng)作領(lǐng)域高度碎片化（單一模態(tài)、功能割裂、接口不兼容）的問題，本文提出了Capybara，一個(gè)統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型。該模型能夠在單一框架下同時(shí)支持圖像/視頻的生成與編輯任務(wù)。

實(shí)現(xiàn)了真正的多模態(tài)統(tǒng)一接口： Capybara的核心創(chuàng)新在于其共享的多模態(tài)條件接口。單個(gè)模型能夠接收包含文本、圖像、視頻在內(nèi)的多種模態(tài)上下文輸入，并通過改變輸入的上下文和指令來實(shí)現(xiàn)多樣化的創(chuàng)作行為，無需切換架構(gòu)或訓(xùn)練多個(gè)專用模型。

整合并統(tǒng)一了四大類核心創(chuàng)作任務(wù)：本文將分散的創(chuàng)作功能統(tǒng)一到一個(gè)框架下，包括：

1. 文本到圖像/視頻生成。

2. 上下文生成：基于草圖、主體參考、起始幀等視覺條件進(jìn)行生成。

3. 基于指令的編輯：通過文本指令編輯圖像/視頻，并首次將密集預(yù)測(cè)任務(wù)視為其特例。

4. 上下文編輯：由額外的視覺參考、風(fēng)格示例或多模態(tài)上下文驅(qū)動(dòng)的編輯，如關(guān)鍵幀傳播。

重構(gòu)了視覺創(chuàng)作的范式：本文將視覺創(chuàng)作重新定義為在統(tǒng)一主干網(wǎng)絡(luò)下對(duì)文本條件和多模態(tài)示例的組合。這種設(shè)計(jì)不僅支持靜態(tài)和動(dòng)態(tài)內(nèi)容創(chuàng)作，還能靈活地組合文本意圖與視覺上下文。

展示了強(qiáng)大的可擴(kuò)展性與應(yīng)用潛力：該框架能夠自然擴(kuò)展到長(zhǎng)視頻編輯，在高吞吐量支持下可進(jìn)一步實(shí)現(xiàn)流式視頻編輯。其統(tǒng)一的接口還支持組合式的多模態(tài)工作流程，例如在一個(gè)請(qǐng)求中混合使用圖像和視頻作為參考，以同時(shí)捕捉身份、運(yùn)動(dòng)和結(jié)構(gòu)信息，實(shí)現(xiàn)更靈活的創(chuàng)作。

總結(jié)速覽

解決的問題

當(dāng)前視覺內(nèi)容創(chuàng)作領(lǐng)域存在高度碎片化的問題：現(xiàn)有工作多聚焦于單一模態(tài)（如圖像或視頻）或僅實(shí)現(xiàn)部分創(chuàng)作功能（如僅生成或僅編輯）。這導(dǎo)致解決方案彼此割裂、接口互不兼容，且上下文條件（如草圖、參考幀）往往作為任務(wù)特定的附加模塊引入，難以構(gòu)建一個(gè)支持多樣化多模態(tài)輸入、具備統(tǒng)一創(chuàng)作流程的單一系統(tǒng)。

提出的方案

提出Capybara，一個(gè)統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型。該模型通過共享的多模態(tài)條件接口，將分散的生成與編輯任務(wù)整合到單一框架中。其核心設(shè)計(jì)是：?jiǎn)蝹€(gè)模型接收包含文本、圖像和視頻的多模態(tài)上下文輸入，并通過改變所提供的上下文和指令來表達(dá)多樣化的創(chuàng)作任務(wù)，無需切換架構(gòu)或訓(xùn)練獨(dú)立的專用模型。

應(yīng)用的技術(shù)

統(tǒng)一的條件接口：將視覺創(chuàng)作統(tǒng)一到單一的條件包中，包含（1）文本輸入、（2）主要視覺上下文（圖像/視頻/起始幀）、（3）可選輔助條件（風(fēng)格示例/草圖/深度圖等）。

多模態(tài)上下文學(xué)習(xí)：支持在統(tǒng)一主干網(wǎng)絡(luò)下，對(duì)文本條件和多模態(tài)示例進(jìn)行組合。

四大任務(wù)框架：通過同一接口支持（1）文本到圖像/視頻生成、（2）基于視覺上下文的生成（如草圖/參考幀）、（3）基于指令的編輯（文本引導(dǎo)的編輯，含密集預(yù)測(cè)）、（4）上下文編輯（視覺參考驅(qū)動(dòng)的編輯，如關(guān)鍵幀傳播）。

達(dá)到的效果

功能統(tǒng)一：成功將生成與編輯、圖像與視頻任務(wù)統(tǒng)一于單一模型，實(shí)現(xiàn)了跨模態(tài)的一致性變換。

靈活創(chuàng)作：能夠靈活組合文本意圖與視覺上下文，支持靜態(tài)（圖像）和動(dòng)態(tài)（視頻）內(nèi)容的創(chuàng)作。

強(qiáng)擴(kuò)展性：框架自然擴(kuò)展到長(zhǎng)視頻編輯，高吞吐量下可支持流式視頻編輯；同時(shí)支持組合式多模態(tài)工作流（如在單次請(qǐng)求中混合圖像/視頻作為參考），為靈活的多任務(wù)創(chuàng)作提供了基礎(chǔ)。

數(shù)據(jù)

為支持統(tǒng)一的視覺創(chuàng)作，構(gòu)建了一個(gè)聯(lián)合的圖像-視頻語料庫，為文本到圖像/視頻生成、上下文生成、基于指令的編輯以及上下文編輯提供訓(xùn)練信號(hào)。因此，我們的數(shù)據(jù)既包含用于從零開始的合成的標(biāo)準(zhǔn)文本-圖像/視頻對(duì)，也包含包含文本與視覺輸入的上下文豐富的元組：用于基于參考主體的圖像/視頻生成的主體參考、用于基于條件控制的圖像/視頻生成（例如，草圖、布局、姿態(tài)、深度/邊緣圖）的視覺提示或結(jié)構(gòu)化控制、用于圖像生成視頻的以起始幀為條件的剪輯、用于基于指令編輯的成對(duì)源-指令-目標(biāo)示例，以及用于上下文編輯的參考驅(qū)動(dòng)的編輯元組（源加上一個(gè)或多個(gè)視覺范例）。對(duì)于傳播任務(wù)，從 TV2V 數(shù)據(jù)集中隨機(jī)采樣數(shù)據(jù)作為我們的訓(xùn)練數(shù)據(jù)。

采用系統(tǒng)性的多階段處理工作流程，將異構(gòu)的原始數(shù)據(jù)集合轉(zhuǎn)化為高質(zhì)量的訓(xùn)訓(xùn)練數(shù)據(jù)。該流程包括：（1）質(zhì)量過濾：使用自動(dòng)化分類器移除有缺陷的內(nèi)容（模糊、偽影、有害材料）和額外疊加元素（水印、字幕）；（2）語義去重：通過基于嵌入的聚類保留多樣化、非冗余的樣本；（3）分布再平衡：確保在主體類別、場(chǎng)景類型和視覺屬性上有足夠的代表性；（4）密集重述：使用在高質(zhì)量標(biāo)注上訓(xùn)練的雙語（中文/英文）視覺語言模型，生成對(duì)動(dòng)態(tài)元素（運(yùn)動(dòng)、攝像機(jī)運(yùn)動(dòng)）和靜態(tài)特征（外觀、美學(xué)、風(fēng)格）的詳細(xì)描述。特別是針對(duì)編輯任務(wù)，我們開發(fā)了大規(guī)模合成流程，以生成配對(duì)數(shù)據(jù)（源圖像/視頻、編輯結(jié)果、指令）。

模型設(shè)計(jì)與訓(xùn)練

統(tǒng)一架構(gòu)：將理解與生成解耦

為了構(gòu)建一個(gè)統(tǒng)一的視覺創(chuàng)作模型，核心挑戰(zhàn)在于接收各種上下文輸入：文本、圖像和視頻，并將它們?nèi)诤系揭粋€(gè)能夠驅(qū)動(dòng)生成和編輯的單一條件空間中。因此，我們選擇了一種雙流解耦架構(gòu)，將多模態(tài)理解與基于擴(kuò)散的合成分離開來：一個(gè)語義感知模塊專注于處理用戶輸入和對(duì)多模態(tài)上下文進(jìn)行推理，而一個(gè)視覺融合模塊則將對(duì)齊后的語義和視覺特征整合到去噪主干網(wǎng)絡(luò)中，以進(jìn)行高保真度合成。通過將理解與生成在結(jié)構(gòu)上解耦，避免強(qiáng)制一組模塊同時(shí)執(zhí)行高層級(jí)解釋和低層級(jí)去噪，從而使單個(gè)模型能夠通過簡(jiǎn)單地改變提供的上下文和指令來支持多樣化的創(chuàng)作任務(wù)。

語義模塊 提出的語義模塊將各種條件（例如，文本、圖像和視頻）整合到一個(gè)統(tǒng)一的潛在表示中。該模塊執(zhí)行上下文推理以提取特定于意圖的特征，同時(shí)在結(jié)構(gòu)上與去噪網(wǎng)絡(luò)保持隔離。這種設(shè)計(jì)提供了一個(gè)強(qiáng)大的語義先驗(yàn)，指導(dǎo)生成過程嚴(yán)格遵循用戶的創(chuàng)作意圖。

視覺模塊 視覺模塊負(fù)責(zé)擴(kuò)散去噪過程以及精細(xì)像素級(jí)條件的精確整合。作為對(duì)來自語義模塊的高層級(jí)指導(dǎo)的補(bǔ)充，視覺模塊整合了細(xì)粒度的視覺條件。這種架構(gòu)將生成能力導(dǎo)向忠實(shí)的重建和時(shí)空一致性，確保在統(tǒng)一框架內(nèi)嚴(yán)格遵守多模態(tài)約束。

擴(kuò)散變換器主干網(wǎng)絡(luò) 本模型從預(yù)訓(xùn)練的 Hunyuan-Video 1.5 初始化，繼承了其變分自編碼器、擴(kuò)散變換器架構(gòu)和時(shí)空建模能力。在此基礎(chǔ)之上，我們引入了一種雙流解耦建模設(shè)計(jì)：語義模塊將所有條件輸入處理成統(tǒng)一的表示，而視覺模塊則專注于處理低層級(jí)特征。這種架構(gòu)修改使得靈活的多條件建模成為可能，同時(shí)保留了預(yù)訓(xùn)練帶來的強(qiáng)大生成先驗(yàn)。

訓(xùn)練策略

為了建立一個(gè)統(tǒng)一的視覺生成框架，采用了一種漸進(jìn)的三階段訓(xùn)練方案。該策略旨在系統(tǒng)地應(yīng)對(duì)與統(tǒng)一各種任務(wù)和條件信號(hào)相關(guān)的獨(dú)特挑戰(zhàn)。訓(xùn)練軌跡使模型從穩(wěn)健的重建發(fā)展到廣泛的多任務(wù)泛化，最終實(shí)現(xiàn)高保真度的指令對(duì)齊。

第一階段：重建與上下文生成訓(xùn)練。 從強(qiáng)大的生成先驗(yàn)（從 HunyuanVideo-1.5 初始化）開始。目標(biāo)是確保語義模塊產(chǎn)生的條件信號(hào)能夠被視覺模塊可靠地使用而不會(huì)導(dǎo)致性能下降，這對(duì)于未編輯區(qū)域必須保持一致的編輯任務(wù)尤其關(guān)鍵。此外，我們還訓(xùn)練了標(biāo)準(zhǔn)和上下文生成任務(wù)（基于參考主體的圖像/視頻生成、基于條件控制的圖像/視頻生成、圖像生成視頻）的混合，以引入像素級(jí)條件能力。

第二階段：編輯任務(wù)訓(xùn)練。 在第一階段為生成任務(wù)建立了穩(wěn)定的多模態(tài)條件接口之后，我們將訓(xùn)練擴(kuò)展到在相同統(tǒng)一框架下的編輯任務(wù)。具體來說，我們引入了基于指令的編輯（文本引導(dǎo)的圖像/視頻編輯），包括作為特例的密集預(yù)測(cè)，其中指令要求生成與輸入內(nèi)容對(duì)齊的結(jié)構(gòu)化輸出。我們進(jìn)一步擴(kuò)展到由額外視覺參考、風(fēng)格/主體示例以及結(jié)構(gòu)化或區(qū)域特定引導(dǎo)驅(qū)動(dòng)的上下文編輯（基于參考的圖像/視頻編輯、跨視頻編輯），并包含了傳播序列，其中稀疏的已編輯關(guān)鍵幀監(jiān)督著跨更長(zhǎng)視頻的時(shí)間一致性變化傳遞。

第三階段：質(zhì)量微調(diào)。 最后，執(zhí)行質(zhì)量微調(diào)以改善在生成和編輯任務(wù)中的指令遵循度、視覺保真度和時(shí)間穩(wěn)定性。此階段側(cè)重于困難案例，如細(xì)粒度的編輯局部性、身份/外觀保持、復(fù)雜的多模態(tài)約束以及長(zhǎng)程時(shí)間一致性。我們收集更高質(zhì)量和更難處理的示例，并應(yīng)用有針對(duì)性的微調(diào)以減少偽影并加強(qiáng)輸入與輸出之間的對(duì)齊。

智能體輔助的視覺創(chuàng)作

對(duì)于迭代式視頻編輯，采用了一種包含智能體在環(huán)的閉環(huán)流程：規(guī)劃 → 編輯 → 評(píng)估/診斷 → 優(yōu)化。智能體將高層級(jí)意圖轉(zhuǎn)化為編輯計(jì)劃，定義要更改的內(nèi)容（內(nèi)容/風(fēng)格/運(yùn)動(dòng)）和要保留的內(nèi)容，并附帶關(guān)于身份、局部性和時(shí)間范圍的約束。然后，它調(diào)用視頻編輯器（例如，文本到視頻/視頻到視頻，可選擇使用遮罩/框、參考或按片段調(diào)度）來生成候選剪輯片段。

一個(gè)評(píng)估模塊使用一小組指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)分——目標(biāo)對(duì)齊度、主體一致性、時(shí)間穩(wěn)定性和約束滿足度——并輸出結(jié)構(gòu)化反饋，指出不正確的更改以及出現(xiàn)偽影的位置。智能體將此反饋轉(zhuǎn)化為更精確的指令和更新的控制項(xiàng)（提示詞修改、強(qiáng)度調(diào)度、時(shí)間窗口、區(qū)域約束、錨點(diǎn)），并進(jìn)行幾輪迭代，直到指標(biāo)穩(wěn)定或達(dá)到閾值。這是通過顯式診斷進(jìn)行的迭代式引導(dǎo)，而不是一次性提示。

結(jié)論

Capybara，一個(gè)統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型，它有效地彌合了靜態(tài)與動(dòng)態(tài)內(nèi)容生成之間的鴻溝。通過統(tǒng)一從文本到圖像到復(fù)雜視頻編輯的多種范式，Capybara在精確的指令遵循、結(jié)構(gòu)穩(wěn)定性和逼真的視覺質(zhì)量方面表現(xiàn)出色。展示了在原生統(tǒng)一架構(gòu)、內(nèi)在的3D感知機(jī)制以及全面的多任務(wù)訓(xùn)練策略方面的核心技術(shù)革新，這些技術(shù)被有效地整合在一起，構(gòu)建了一個(gè)穩(wěn)健且通用的系統(tǒng)。它在處理復(fù)雜多條件場(chǎng)景、維持符合物理規(guī)律的時(shí)間連貫性，以及為全視覺創(chuàng)作實(shí)現(xiàn)無縫的專業(yè)級(jí)工作流程方面，展現(xiàn)出了卓越的能力。

參考文獻(xiàn)

[1]CAPYBARA: A Unified Visual Creation Model

原文標(biāo)題 : 真“六邊形戰(zhàn)士”！Capybara把圖像視頻全打通：一個(gè)模型搞定T2I、T2V、I2V！