訂閱
糾錯(cuò)
加入自媒體

真“六邊形戰(zhàn)士”!Capybara把圖像視頻全打通:一個(gè)模型搞定T2I、T2V、I2V!

作者:Capybara 團(tuán)隊(duì)

解讀:AI生成未來

亮點(diǎn)直擊

統(tǒng)一的視覺創(chuàng)作模型 Capybara: 針對(duì)當(dāng)前視覺內(nèi)容創(chuàng)作領(lǐng)域高度碎片化(單一模態(tài)、功能割裂、接口不兼容)的問題,本文提出了Capybara,一個(gè)統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型。該模型能夠在單一框架下同時(shí)支持圖像/視頻的生成與編輯任務(wù)。

實(shí)現(xiàn)了真正的多模態(tài)統(tǒng)一接口: Capybara的核心創(chuàng)新在于其共享的多模態(tài)條件接口。單個(gè)模型能夠接收包含文本、圖像、視頻在內(nèi)的多種模態(tài)上下文輸入,并通過改變輸入的上下文和指令來實(shí)現(xiàn)多樣化的創(chuàng)作行為,無需切換架構(gòu)或訓(xùn)練多個(gè)專用模型。

整合并統(tǒng)一了四大類核心創(chuàng)作任務(wù): 本文將分散的創(chuàng)作功能統(tǒng)一到一個(gè)框架下,包括:

1.  文本到圖像/視頻生成。

2.  上下文生成:基于草圖、主體參考、起始幀等視覺條件進(jìn)行生成。

3.  基于指令的編輯:通過文本指令編輯圖像/視頻,并首次將密集預(yù)測(cè)任務(wù)視為其特例。

4.  上下文編輯:由額外的視覺參考、風(fēng)格示例或多模態(tài)上下文驅(qū)動(dòng)的編輯,如關(guān)鍵幀傳播。

重構(gòu)了視覺創(chuàng)作的范式:本文將視覺創(chuàng)作重新定義為在統(tǒng)一主干網(wǎng)絡(luò)下對(duì)文本條件和多模態(tài)示例的組合。這種設(shè)計(jì)不僅支持靜態(tài)和動(dòng)態(tài)內(nèi)容創(chuàng)作,還能靈活地組合文本意圖與視覺上下文。

展示了強(qiáng)大的可擴(kuò)展性與應(yīng)用潛力:該框架能夠自然擴(kuò)展到長(zhǎng)視頻編輯,在高吞吐量支持下可進(jìn)一步實(shí)現(xiàn)流式視頻編輯。其統(tǒng)一的接口還支持組合式的多模態(tài)工作流程,例如在一個(gè)請(qǐng)求中混合使用圖像和視頻作為參考,以同時(shí)捕捉身份、運(yùn)動(dòng)和結(jié)構(gòu)信息,實(shí)現(xiàn)更靈活的創(chuàng)作。

總結(jié)速覽

解決的問題

當(dāng)前視覺內(nèi)容創(chuàng)作領(lǐng)域存在高度碎片化的問題:現(xiàn)有工作多聚焦于單一模態(tài)(如圖像或視頻)或僅實(shí)現(xiàn)部分創(chuàng)作功能(如僅生成或僅編輯)。這導(dǎo)致解決方案彼此割裂、接口互不兼容,且上下文條件(如草圖、參考幀)往往作為任務(wù)特定的附加模塊引入,難以構(gòu)建一個(gè)支持多樣化多模態(tài)輸入、具備統(tǒng)一創(chuàng)作流程的單一系統(tǒng)。

提出的方案

提出Capybara,一個(gè)統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型。該模型通過共享的多模態(tài)條件接口,將分散的生成與編輯任務(wù)整合到單一框架中。其核心設(shè)計(jì)是:?jiǎn)蝹(gè)模型接收包含文本、圖像和視頻的多模態(tài)上下文輸入,并通過改變所提供的上下文和指令來表達(dá)多樣化的創(chuàng)作任務(wù),無需切換架構(gòu)或訓(xùn)練獨(dú)立的專用模型。

應(yīng)用的技術(shù)

統(tǒng)一的條件接口:將視覺創(chuàng)作統(tǒng)一到單一的條件包中,包含(1)文本輸入、(2)主要視覺上下文(圖像/視頻/起始幀)、(3)可選輔助條件(風(fēng)格示例/草圖/深度圖等)。

多模態(tài)上下文學(xué)習(xí):支持在統(tǒng)一主干網(wǎng)絡(luò)下,對(duì)文本條件和多模態(tài)示例進(jìn)行組合。

四大任務(wù)框架:通過同一接口支持(1)文本到圖像/視頻生成、(2)基于視覺上下文的生成(如草圖/參考幀)、(3)基于指令的編輯(文本引導(dǎo)的編輯,含密集預(yù)測(cè))、(4)上下文編輯(視覺參考驅(qū)動(dòng)的編輯,如關(guān)鍵幀傳播)。

達(dá)到的效果

功能統(tǒng)一:成功將生成與編輯、圖像與視頻任務(wù)統(tǒng)一于單一模型,實(shí)現(xiàn)了跨模態(tài)的一致性變換。

靈活創(chuàng)作:能夠靈活組合文本意圖與視覺上下文,支持靜態(tài)(圖像)和動(dòng)態(tài)(視頻)內(nèi)容的創(chuàng)作。

強(qiáng)擴(kuò)展性:框架自然擴(kuò)展到長(zhǎng)視頻編輯,高吞吐量下可支持流式視頻編輯;同時(shí)支持組合式多模態(tài)工作流(如在單次請(qǐng)求中混合圖像/視頻作為參考),為靈活的多任務(wù)創(chuàng)作提供了基礎(chǔ)。

數(shù)據(jù)

為支持統(tǒng)一的視覺創(chuàng)作,構(gòu)建了一個(gè)聯(lián)合的圖像-視頻語料庫,為文本到圖像/視頻生成、上下文生成、基于指令的編輯以及上下文編輯提供訓(xùn)練信號(hào)。因此,我們的數(shù)據(jù)既包含用于從零開始的合成的標(biāo)準(zhǔn)文本-圖像/視頻對(duì),也包含包含文本與視覺輸入的上下文豐富的元組:用于基于參考主體的圖像/視頻生成的主體參考、用于基于條件控制的圖像/視頻生成(例如,草圖、布局、姿態(tài)、深度/邊緣圖)的視覺提示或結(jié)構(gòu)化控制、用于圖像生成視頻的以起始幀為條件的剪輯、用于基于指令編輯的成對(duì)源-指令-目標(biāo)示例,以及用于上下文編輯的參考驅(qū)動(dòng)的編輯元組(源加上一個(gè)或多個(gè)視覺范例)。對(duì)于傳播任務(wù),從 TV2V 數(shù)據(jù)集中隨機(jī)采樣數(shù)據(jù)作為我們的訓(xùn)練數(shù)據(jù)。

采用系統(tǒng)性的多階段處理工作流程,將異構(gòu)的原始數(shù)據(jù)集合轉(zhuǎn)化為高質(zhì)量的訓(xùn)訓(xùn)練數(shù)據(jù)。該流程包括:(1)質(zhì)量過濾:使用自動(dòng)化分類器移除有缺陷的內(nèi)容(模糊、偽影、有害材料)和額外疊加元素(水印、字幕);(2)語義去重:通過基于嵌入的聚類保留多樣化、非冗余的樣本;(3)分布再平衡:確保在主體類別、場(chǎng)景類型和視覺屬性上有足夠的代表性;(4)密集重述:使用在高質(zhì)量標(biāo)注上訓(xùn)練的雙語(中文/英文)視覺語言模型,生成對(duì)動(dòng)態(tài)元素(運(yùn)動(dòng)、攝像機(jī)運(yùn)動(dòng))和靜態(tài)特征(外觀、美學(xué)、風(fēng)格)的詳細(xì)描述。特別是針對(duì)編輯任務(wù),我們開發(fā)了大規(guī)模合成流程,以生成配對(duì)數(shù)據(jù)(源圖像/視頻、編輯結(jié)果、指令)。

模型設(shè)計(jì)與訓(xùn)練

統(tǒng)一架構(gòu):將理解與生成解耦

為了構(gòu)建一個(gè)統(tǒng)一的視覺創(chuàng)作模型,核心挑戰(zhàn)在于接收各種上下文輸入:文本、圖像和視頻,并將它們?nèi)诤系揭粋(gè)能夠驅(qū)動(dòng)生成和編輯的單一條件空間中。因此,我們選擇了一種雙流解耦架構(gòu),將多模態(tài)理解與基于擴(kuò)散的合成分離開來:一個(gè)語義感知模塊專注于處理用戶輸入和對(duì)多模態(tài)上下文進(jìn)行推理,而一個(gè)視覺融合模塊則將對(duì)齊后的語義和視覺特征整合到去噪主干網(wǎng)絡(luò)中,以進(jìn)行高保真度合成。通過將理解與生成在結(jié)構(gòu)上解耦,避免強(qiáng)制一組模塊同時(shí)執(zhí)行高層級(jí)解釋和低層級(jí)去噪,從而使單個(gè)模型能夠通過簡(jiǎn)單地改變提供的上下文和指令來支持多樣化的創(chuàng)作任務(wù)。

語義模塊 提出的語義模塊將各種條件(例如,文本、圖像和視頻)整合到一個(gè)統(tǒng)一的潛在表示中。該模塊執(zhí)行上下文推理以提取特定于意圖的特征,同時(shí)在結(jié)構(gòu)上與去噪網(wǎng)絡(luò)保持隔離。這種設(shè)計(jì)提供了一個(gè)強(qiáng)大的語義先驗(yàn),指導(dǎo)生成過程嚴(yán)格遵循用戶的創(chuàng)作意圖。

視覺模塊 視覺模塊負(fù)責(zé)擴(kuò)散去噪過程以及精細(xì)像素級(jí)條件的精確整合。作為對(duì)來自語義模塊的高層級(jí)指導(dǎo)的補(bǔ)充,視覺模塊整合了細(xì)粒度的視覺條件。這種架構(gòu)將生成能力導(dǎo)向忠實(shí)的重建和時(shí)空一致性,確保在統(tǒng)一框架內(nèi)嚴(yán)格遵守多模態(tài)約束。

擴(kuò)散變換器主干網(wǎng)絡(luò) 本模型從預(yù)訓(xùn)練的 Hunyuan-Video 1.5 初始化,繼承了其變分自編碼器、擴(kuò)散變換器架構(gòu)和時(shí)空建模能力。在此基礎(chǔ)之上,我們引入了一種雙流解耦建模設(shè)計(jì):語義模塊將所有條件輸入處理成統(tǒng)一的表示,而視覺模塊則專注于處理低層級(jí)特征。這種架構(gòu)修改使得靈活的多條件建模成為可能,同時(shí)保留了預(yù)訓(xùn)練帶來的強(qiáng)大生成先驗(yàn)。

訓(xùn)練策略

為了建立一個(gè)統(tǒng)一的視覺生成框架,采用了一種漸進(jìn)的三階段訓(xùn)練方案。該策略旨在系統(tǒng)地應(yīng)對(duì)與統(tǒng)一各種任務(wù)和條件信號(hào)相關(guān)的獨(dú)特挑戰(zhàn)。訓(xùn)練軌跡使模型從穩(wěn)健的重建發(fā)展到廣泛的多任務(wù)泛化,最終實(shí)現(xiàn)高保真度的指令對(duì)齊。

第一階段:重建與上下文生成訓(xùn)練。 從強(qiáng)大的生成先驗(yàn)(從 HunyuanVideo-1.5 初始化)開始。目標(biāo)是確保語義模塊產(chǎn)生的條件信號(hào)能夠被視覺模塊可靠地使用而不會(huì)導(dǎo)致性能下降,這對(duì)于未編輯區(qū)域必須保持一致的編輯任務(wù)尤其關(guān)鍵。此外,我們還訓(xùn)練了標(biāo)準(zhǔn)和上下文生成任務(wù)(基于參考主體的圖像/視頻生成、基于條件控制的圖像/視頻生成、圖像生成視頻)的混合,以引入像素級(jí)條件能力。

第二階段:編輯任務(wù)訓(xùn)練。 在第一階段為生成任務(wù)建立了穩(wěn)定的多模態(tài)條件接口之后,我們將訓(xùn)練擴(kuò)展到在相同統(tǒng)一框架下的編輯任務(wù)。具體來說,我們引入了基于指令的編輯(文本引導(dǎo)的圖像/視頻編輯),包括作為特例的密集預(yù)測(cè),其中指令要求生成與輸入內(nèi)容對(duì)齊的結(jié)構(gòu)化輸出。我們進(jìn)一步擴(kuò)展到由額外視覺參考、風(fēng)格/主體示例以及結(jié)構(gòu)化或區(qū)域特定引導(dǎo)驅(qū)動(dòng)的上下文編輯(基于參考的圖像/視頻編輯、跨視頻編輯),并包含了傳播序列,其中稀疏的已編輯關(guān)鍵幀監(jiān)督著跨更長(zhǎng)視頻的時(shí)間一致性變化傳遞。

第三階段:質(zhì)量微調(diào)。 最后,執(zhí)行質(zhì)量微調(diào)以改善在生成和編輯任務(wù)中的指令遵循度、視覺保真度和時(shí)間穩(wěn)定性。此階段側(cè)重于困難案例,如細(xì)粒度的編輯局部性、身份/外觀保持、復(fù)雜的多模態(tài)約束以及長(zhǎng)程時(shí)間一致性。我們收集更高質(zhì)量和更難處理的示例,并應(yīng)用有針對(duì)性的微調(diào)以減少偽影并加強(qiáng)輸入與輸出之間的對(duì)齊。

智能體輔助的視覺創(chuàng)作

對(duì)于迭代式視頻編輯,采用了一種包含智能體在環(huán)的閉環(huán)流程:規(guī)劃 → 編輯 → 評(píng)估/診斷 → 優(yōu)化。智能體將高層級(jí)意圖轉(zhuǎn)化為編輯計(jì)劃,定義要更改的內(nèi)容(內(nèi)容/風(fēng)格/運(yùn)動(dòng))和要保留的內(nèi)容,并附帶關(guān)于身份、局部性和時(shí)間范圍的約束。然后,它調(diào)用視頻編輯器(例如,文本到視頻/視頻到視頻,可選擇使用遮罩/框、參考或按片段調(diào)度)來生成候選剪輯片段。

一個(gè)評(píng)估模塊使用一小組指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)分——目標(biāo)對(duì)齊度、主體一致性、時(shí)間穩(wěn)定性和約束滿足度——并輸出結(jié)構(gòu)化反饋,指出不正確的更改以及出現(xiàn)偽影的位置。智能體將此反饋轉(zhuǎn)化為更精確的指令和更新的控制項(xiàng)(提示詞修改、強(qiáng)度調(diào)度、時(shí)間窗口、區(qū)域約束、錨點(diǎn)),并進(jìn)行幾輪迭代,直到指標(biāo)穩(wěn)定或達(dá)到閾值。這是通過顯式診斷進(jìn)行的迭代式引導(dǎo),而不是一次性提示。

結(jié)論

Capybara,一個(gè)統(tǒng)一的視覺創(chuàng)作基礎(chǔ)模型,它有效地彌合了靜態(tài)與動(dòng)態(tài)內(nèi)容生成之間的鴻溝。通過統(tǒng)一從文本到圖像到復(fù)雜視頻編輯的多種范式,Capybara在精確的指令遵循、結(jié)構(gòu)穩(wěn)定性和逼真的視覺質(zhì)量方面表現(xiàn)出色。展示了在原生統(tǒng)一架構(gòu)、內(nèi)在的3D感知機(jī)制以及全面的多任務(wù)訓(xùn)練策略方面的核心技術(shù)革新,這些技術(shù)被有效地整合在一起,構(gòu)建了一個(gè)穩(wěn)健且通用的系統(tǒng)。它在處理復(fù)雜多條件場(chǎng)景、維持符合物理規(guī)律的時(shí)間連貫性,以及為全視覺創(chuàng)作實(shí)現(xiàn)無縫的專業(yè)級(jí)工作流程方面,展現(xiàn)出了卓越的能力。

參考文獻(xiàn)

[1]CAPYBARA: A Unified Visual Creation Model

       原文標(biāo)題 : 真“六邊形戰(zhàn)士”!Capybara把圖像視頻全打通:一個(gè)模型搞定T2I、T2V、I2V!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)