123,123,123

4B參數(shù)干翻14B！國(guó)產(chǎn)統(tǒng)一多模態(tài)“全能戰(zhàn)士” InternVL-U開(kāi)源：理解、生成與編輯迎新高度

2026-03-13 14:33

作者：Changyao Tian等

解讀：AI生成未來(lái)
InternVL-U生成和圖像編輯效果

InternVL-U生成和圖像編輯效果

亮點(diǎn)直擊

InternVL-U 架構(gòu)：構(gòu)建了一個(gè)僅有 4B 參數(shù)的輕量級(jí)、高效統(tǒng)一多模態(tài)模型（UMM），在一個(gè)統(tǒng)一的框架內(nèi)實(shí)現(xiàn)了多模態(tài)的理解、推理、生成與編輯能力。

架構(gòu)設(shè)計(jì)理念創(chuàng)新：基于統(tǒng)一上下文建模（Unified Contextual Modeling）、視覺(jué)表示解耦（Decoupled Visual Representations）以及特定模態(tài)模塊化（Modality-Specific Modularity）三大原則，成功解決了高層語(yǔ)義理解與底層像素重建之間的沖突。

以推理為中心的數(shù)據(jù)合成范式（Reasoning-centric Paradigm）：針對(duì)高語(yǔ)義密度任務(wù)（如文本渲染、科學(xué)推理、空間操作等），構(gòu)建了全面的數(shù)據(jù)合成pipeline。通過(guò)引入思維鏈（Chain-of-Thought, CoT），將用戶抽象模糊的意圖轉(zhuǎn)化為包含規(guī)劃與約束的可執(zhí)行步驟，實(shí)現(xiàn)了從簡(jiǎn)單指令遵循到深度意圖對(duì)齊的跨越。

解決的問(wèn)題

性能與效率的權(quán)衡（Trade-offs）：現(xiàn)有的統(tǒng)一多模態(tài)模型很難在“保持強(qiáng)大的語(yǔ)義理解能力”與“獲得高質(zhì)量的圖像生成能力”之間取得平衡。

原生與集成 UMM 的架構(gòu)缺陷：完全原生（Fully-native）UMM：從頭聯(lián)合訓(xùn)練理解和生成任務(wù)面臨巨大的優(yōu)化和工程挑戰(zhàn)（不同模態(tài)數(shù)據(jù)分布沖突），且往往需要放棄社區(qū)已有 SOTA 多模態(tài)理解模型的先驗(yàn)知識(shí)，訓(xùn)練成本極高。完全集成（Fully-ensemble）UMM：通常需要外接極其龐大的視覺(jué)生成頭（導(dǎo)致訓(xùn)練和部署成本劇增），或者引入復(fù)雜且碎片化的條件控制管道，難以與單一 MLLM 的隱藏狀態(tài)空間完美對(duì)齊。

訓(xùn)練數(shù)據(jù)分布的領(lǐng)域鴻溝：生成模型通常在紋理豐富但語(yǔ)義密度低的自然圖像上訓(xùn)練，而理解模型則高度依賴包含密集語(yǔ)義、文本和結(jié)構(gòu)化知識(shí)的合成圖像（如 GUI、圖表）。這種數(shù)據(jù)目標(biāo)的錯(cuò)位阻礙了面向 AGI 的統(tǒng)一模型的演進(jìn)。

用戶意圖的抽象性：在真實(shí)場(chǎng)景中，用戶給出的生成或編輯指令往往簡(jiǎn)短且模糊，缺乏具體約束，導(dǎo)致模型難以準(zhǔn)確捕捉意圖并生成符合邏輯的精細(xì)圖像（特別是涉及文本、科學(xué)知識(shí)和復(fù)雜邏輯時(shí)）。

提出的方案

基于先進(jìn) MLLM 的模塊化架構(gòu)：InternVL-U 建立在開(kāi)源且性能領(lǐng)先的 InternVL 3.5 基礎(chǔ)之上，保留了強(qiáng)大的理解能力，并定制集成了一個(gè)基于 MMDiT 的輕量視覺(jué)生成頭（Visual Generation Head）。

視覺(jué)表示解耦：在理解任務(wù)中，輸入使用預(yù)訓(xùn)練 ViT 提取的高層語(yǔ)義特征；在生成任務(wù)中，輸出目標(biāo)則使用專門(mén)用于圖像重建的 VAE 壓縮的潛空間（Latent space）特征。

高質(zhì)量、高語(yǔ)義密度數(shù)據(jù)pipeline：設(shè)計(jì)了針對(duì)中英雙語(yǔ)排版渲染、科學(xué)知識(shí)結(jié)構(gòu)化（基于 GeoGebra 和 SVG）、空間幾何變換以及網(wǎng)絡(luò)熱梗（Meme）的專門(mén)合成pipeline。

引入 CoT 推理引導(dǎo)生成與編輯：在訓(xùn)練和推理階段利用大模型生成詳細(xì)的“思維鏈”步驟，將抽象指令擴(kuò)展為對(duì)物體、背景、樣式、約束條件的詳細(xì)描述，使得生成模型能獲得更清晰、更穩(wěn)定的監(jiān)督信號(hào)。

應(yīng)用的技術(shù)

混合生成目標(biāo)（Hybrid Generative Objectives）：對(duì)離散的文本采用標(biāo)準(zhǔn)的自回歸（AR）下個(gè) Token 預(yù)測(cè)；對(duì)連續(xù)的視覺(jué)圖像潛變量采用基于流匹配（Flow Matching）的連續(xù)多變量概率空間建模。

帶門(mén)控注意力的雙流 MMDiT（Dual-Stream MMDiT with Gated Attention）：視覺(jué)生成頭采用雙流架構(gòu)處理多模態(tài)上下文和生成目標(biāo)，引入元素級(jí)門(mén)控機(jī)制（Gating Mechanism）來(lái)增強(qiáng)非線性，緩解高分辨率長(zhǎng)上下文場(chǎng)景下的“注意力下沉（Attention-sink）”問(wèn)題。

具有分辨率插值的統(tǒng)一 MSRoPE（Unified MSRoPE with Resolution Interpolation）：對(duì)上下文中的視覺(jué) Token 和生成目標(biāo)應(yīng)用統(tǒng)一的 3D 旋轉(zhuǎn)位置編碼。采用分辨率插值策略（通過(guò)增加相鄰 Token 的步幅而非縮小索引范圍）來(lái)處理從低分辨率向高分辨率微調(diào)時(shí)的擴(kuò)展問(wèn)題。

三階段漸進(jìn)式訓(xùn)練（Three-stage Progressive Training）：

生成頭預(yù)訓(xùn)練：凍結(jié) MLLM，僅訓(xùn)練生成頭及投影層，將視覺(jué)生成對(duì)齊到 MLLM 潛空間。

任意分辨率持續(xù)預(yù)訓(xùn)練：引入多種長(zhǎng)寬比和更高分辨率，保持 MLLM 凍結(jié)，顯式注入條件圖像的 VAE 潛特征以提升編輯的像素級(jí)一致性。

統(tǒng)一監(jiān)督微調(diào)：解凍全模型進(jìn)行端到端優(yōu)化，加入 CoT 推理數(shù)據(jù)，讓模型學(xué)會(huì)在視覺(jué)執(zhí)行前通過(guò)文本推理進(jìn)行規(guī)劃。

達(dá)到的效果

性能越級(jí)：盡管總參數(shù)量?jī)H為 4B（2B MLLM + 1.7B 生成頭），InternVL-U 在各類生成和編輯任務(wù)上持續(xù)超越了規(guī)模是其 3 倍以上的統(tǒng)一基線模型（如 14B 的 BAGEL）。

卓越的文本渲染與復(fù)雜生成能力：在通用的、以文本為中心的（如海報(bào)、UI 編輯）、以及知識(shí)密集型（如數(shù)學(xué)、物理原理圖）基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異，尤其是在生成高可讀性文本和遵循復(fù)雜指令方面，逼近了更大規(guī)模的專用生成模型。

保持頂尖的理解與推理水平：在統(tǒng)一了生成和編輯能力后，InternVL-U 在多模態(tài)理解基準(zhǔn)測(cè)試（如 MME-P、OCRBench、MMMU）上依然保持了與純理解模型相當(dāng)?shù)膹?qiáng)大能力，沒(méi)有出現(xiàn)“災(zāi)難性遺忘”或能力妥協(xié)。

InternVL-U方法

模型架構(gòu)

總體設(shè)計(jì)原則

如圖 3 所示，與近期強(qiáng)制對(duì)所有模態(tài)采用同質(zhì)化處理管道的方法（例如 Mixture-of-Transformer (MoT)）不同，本工作架構(gòu)的驅(qū)動(dòng)理念是：不同的模態(tài)需要定制化的處理方式，以實(shí)現(xiàn)效率和性能的最大化。本文從三個(gè)關(guān)鍵維度闡述了設(shè)計(jì)原則：建模范式、結(jié)構(gòu)效率和數(shù)據(jù)表示。

具有模態(tài)自適應(yīng)生成的統(tǒng)一上下文建模。第一個(gè)原則旨在解決多模態(tài)理解（上下文）與生成（預(yù)測(cè)）之間的二分法。本文認(rèn)為，盡管上下文環(huán)境受益于統(tǒng)一的表示以促進(jìn)深度語(yǔ)義融合，但生成過(guò)程應(yīng)當(dāng)尊重每種模態(tài)固有的統(tǒng)計(jì)特性。

統(tǒng)一的上下文，自適應(yīng)的目標(biāo)：在上下文階段，本文將視覺(jué)和語(yǔ)言 Token 投影到一個(gè)共享的潛空間中，采用帶有因果掩碼的統(tǒng)一自回歸（AR）范式。這確保了模型在推理過(guò)程中能夠捕獲模態(tài)間復(fù)雜的高層語(yǔ)義依賴關(guān)系。

混合生成目標(biāo)：然而，對(duì)于預(yù)測(cè)目標(biāo)，本文偏離了“一切皆 Token 化”的方法。文本本質(zhì)上是離散且具有序列性的，最適合通過(guò)交叉熵?fù)p失在有限詞表上進(jìn)行分類分布建模。相反，視覺(jué)信號(hào)是連續(xù)且具有空間相關(guān)性的。雖然離散的視覺(jué) Token 化是一種可行的替代方案（正如基于 VQ-VAE 的自回歸模型那樣），但它可能會(huì)引入量化瓶頸，并使得細(xì)粒度的空間建模變得不夠直接。因此，本文采用了混合的 “自回歸 + 擴(kuò)散” 建模范式。本文在連續(xù)的多變量概率空間中使用流匹配（Flow Matching，擴(kuò)散模型的一種廣義形式）來(lái)建模圖像生成，同時(shí)保留了文本的自回歸目標(biāo)。這種設(shè)計(jì)允許模型保留自回歸語(yǔ)言模型在文本上的優(yōu)勢(shì)，同時(shí)利用基于擴(kuò)散的方法在圖像上高保真生成的潛力。

通過(guò)特定模態(tài)模塊化設(shè)計(jì)實(shí)現(xiàn)結(jié)構(gòu)效率。第二個(gè)原則旨在解決完全模態(tài)不可知架構(gòu)在計(jì)算上的低效問(wèn)題，這類架構(gòu)將所有模態(tài)視為統(tǒng)一的 Token 序列。本文認(rèn)為不同模態(tài)具有不同的“語(yǔ)義密度”：文本語(yǔ)義密集，而原始視覺(jué) Patch 則是稀疏且冗余的。

基于編碼器的 MLLM 初始化：為了減輕使用通用 Transformer 處理原始模態(tài)時(shí)固有的參數(shù)和 FLOPs 浪費(fèi)，本文引入了特定模態(tài)的編碼主干（Stems）。本文使用基于編碼器的架構(gòu)（利用預(yù)訓(xùn)練的 ViT）來(lái)初始化多模態(tài)上下文建模骨干，而不是使用更龐大或原生的多模態(tài)設(shè)計(jì)。這種設(shè)計(jì)引入了必要的歸納偏置，在視覺(jué)信息進(jìn)入統(tǒng)一潛空間之前對(duì)其進(jìn)行了高效聚合。

特定模態(tài)生成頭：此外，考慮到文本和圖像的解碼需求不同，本文擴(kuò)展了預(yù)訓(xùn)練的 MLLM，為其增加了一個(gè)基于多模態(tài)擴(kuò)散 Transformer（MMDiT）架構(gòu)的專用圖像生成頭。MMDiT 作為一個(gè)專用的生成模塊，以統(tǒng)一的隱藏狀態(tài)作為條件信號(hào)，在連續(xù)的視覺(jué)潛空間中合成圖像，而不是讓上下文建模骨干去承擔(dān)像素級(jí)合成的重?fù)?dān)。這種層次化設(shè)計(jì)確保了骨干網(wǎng)絡(luò)可以專注于語(yǔ)義推理，而專門(mén)的主干和頭部模塊則負(fù)責(zé)特定模態(tài)的轉(zhuǎn)換，從而構(gòu)建出一個(gè)更加統(tǒng)一且計(jì)算高效的 UMM。

用于理解與生成的解耦視覺(jué)表示。第三個(gè)原則挑戰(zhàn)了這樣一個(gè)假設(shè)：用于理解圖像的視覺(jué)表示必須與用于生成圖像的視覺(jué)表示完全相同。本文提出了一種不對(duì)稱的表示策略，其動(dòng)機(jī)在于：圖像理解主要依賴于包含語(yǔ)義信息的特征，而圖像生成則額外需要能夠保留可重建底層視覺(jué)細(xì)節(jié)的表示（正如人類可以感知復(fù)雜的場(chǎng)景，但未必能將其畫(huà)出來(lái)一樣）。

用于上下文理解的語(yǔ)義輸入：對(duì)于理解任務(wù)（上下文），本文僅利用通過(guò)預(yù)訓(xùn)練 ViT 直接從原始像素中提取的高層語(yǔ)義特征。這有助于保留復(fù)雜推理所需的語(yǔ)義保真度。

用于生成目標(biāo)的壓縮輸出：對(duì)于生成任務(wù)（目標(biāo)），本文采用了一個(gè)專門(mén)為圖像重建訓(xùn)練的獨(dú)立變分自編碼器（VAE）。該 VAE 將圖像壓縮到一個(gè)適合用于合成的潛空間中。

通過(guò)解耦這些表示，本工作不僅避免了“優(yōu)化權(quán)衡”（即單一編碼器難以平衡理解所需的高層抽象和生成所需的底層像素細(xì)節(jié)），還避免了因?qū)⑸赡繕?biāo)輸入上下文骨干網(wǎng)絡(luò)而增加的計(jì)算成本和架構(gòu)復(fù)雜性。這使得本文能夠在不犧牲生成質(zhì)量的前提下，利用最強(qiáng)大的預(yù)訓(xùn)練編碼器進(jìn)行理解。

視覺(jué)生成頭

基于上述原則，進(jìn)一步詳細(xì)介紹了定制開(kāi)發(fā)的視覺(jué)生成頭的實(shí)現(xiàn)細(xì)節(jié)，如圖 4 所示。

用于上下文和目標(biāo)輸入的雙投影器。多模態(tài)隱藏狀態(tài)（上下文）和 VAE 圖像潛變量（目標(biāo)）的特征分布展現(xiàn)出顯著的異質(zhì)性。為了彌合這種異質(zhì)性，本文采用獨(dú)立的線性投影器將它們映射到視覺(jué)生成模塊的條件空間中。關(guān)鍵的是，本文觀察到，多模態(tài)上下文嵌入往往比 VAE 潛變量表現(xiàn)出更大的量級(jí)和更明顯的異常值。為了減少這種尺度不匹配并提高訓(xùn)練穩(wěn)定性，本文在投影之前在 VLM 分支上引入了一個(gè)額外的歸納層，顯式地將上下文特征的方差歸一化為 1。

帶有門(mén)控注意力的雙流 MMDiT 模塊。本文采用了完全的雙流（Dual-Stream）架構(gòu)，以應(yīng)對(duì)多模態(tài)上下文和生成目標(biāo)的截然不同的統(tǒng)計(jì)特性。雖然雙流通過(guò)聯(lián)合自注意力進(jìn)行交互以捕獲 Token 級(jí)的依賴關(guān)系，但它們?cè)?QKVO 投影和前饋網(wǎng)絡(luò)（FFNs）上使用了獨(dú)立解耦的參數(shù)。此外，為了增強(qiáng)非線性并緩解在高分辨率、長(zhǎng)上下文場(chǎng)景下觀察到的“注意力下沉（Attention-sink）”現(xiàn)象，本文在注意力模塊中集成了一個(gè)元素級(jí)門(mén)控機(jī)制（Gating Mechanism）。形式上，注意力層調(diào)制后的輸出為：

其中表示 Sigmoid 函數(shù)，和分別表示注意力層的輸入和輸出，表示可學(xué)習(xí)的門(mén)控投影矩陣，該矩陣同樣在雙流中是解耦的。據(jù)本文所知，這是首次在 MMDiT 架構(gòu)中集成門(mén)控機(jī)制，它以極小的參數(shù)開(kāi)銷提供了更強(qiáng)的表達(dá)能力。

具有分辨率插值的統(tǒng)一 MSRoPE。本文采用多模態(tài)可擴(kuò)展的旋轉(zhuǎn)位置編碼（Multimodal Scalable RoPE, MSRoPE）對(duì)位置信息進(jìn)行編碼，確保嚴(yán)格保留空間結(jié)構(gòu)。

統(tǒng)一的 3D 編碼：過(guò)去的許多工作往往將多模態(tài)上下文中的視覺(jué) Token 視為展平的 1D 序列，與此不同，本文對(duì)生成目標(biāo)和上下文中的視覺(jué) Token 均應(yīng)用統(tǒng)一的 3D 位置嵌入（時(shí)間、高度、寬度）。這種對(duì)齊方式顯著有利于需要精確空間推理的任務(wù)，例如圖像編輯。

位置插值：為了促進(jìn)分辨率的縮放，本文解決了在高分辨率微調(diào)期間直接外推位置索引時(shí)觀察到的“平鋪偽影（tiling artifact）”問(wèn)題。取而代之的是，本文采用了一種分辨率插值策略。本文基于目標(biāo)的最大分辨率（例如 1024px）定義位置嵌入的范圍。在初始的低分辨率預(yù)訓(xùn)練階段（例如 512px），本文并沒(méi)有使用較小的索引范圍，而是利用了完整的范圍，但增加了相鄰 Token 之間的步幅。這確保了模型從一開(kāi)始就學(xué)習(xí)到一致的全局空間表示，從而在擴(kuò)展到更高分辨率時(shí)最小化領(lǐng)域鴻溝。

訓(xùn)練策略

訓(xùn)練目標(biāo)

為了賦予 UMM 處理和生成多模態(tài)內(nèi)容的能力，本文制定了一個(gè)聯(lián)合優(yōu)化目標(biāo)。給定多模態(tài)上下文序列，模型被訓(xùn)練為同時(shí)預(yù)測(cè)離散的文本 Token 和連續(xù)的圖像潛變量表示。

自回歸文本生成。對(duì)于文本部分，本文將文本生成視為離散詞表上的序列建模問(wèn)題。本文采用標(biāo)準(zhǔn)的下個(gè) Token 預(yù)測(cè)（Next-Token Prediction, NTP）目標(biāo)，即在給定上下文和前面 Token 的條件下，最小化目標(biāo) Token 的負(fù)對(duì)數(shù)似然：

其中表示長(zhǎng)度為的文本序列中的第個(gè)Token，表示前面的 Token，是統(tǒng)一模型的參數(shù)。這一目標(biāo)確保模型保留了 MLLM 骨干網(wǎng)絡(luò)固有的推理和指令遵循能力。

用于圖像生成的流匹配。對(duì)于視覺(jué)部分，本文采用帶有速度參數(shù)化（Velocity parameterization）的流匹配框架來(lái)對(duì)圖像潛變量的連續(xù)分布進(jìn)行建模。不同于預(yù)測(cè)噪聲的擴(kuò)散模型，本文回歸的是將概率密度從高斯噪聲分布傳輸?shù)綌?shù)據(jù)分布的速度向量場(chǎng) 。根據(jù)流匹配和受最優(yōu)傳輸啟發(fā)的傳輸路徑的常用表達(dá)形式，本文假設(shè)噪聲和真實(shí)圖像潛變量之間存在標(biāo)準(zhǔn)線性插值路徑。在時(shí)間的中間狀態(tài)定義為。目標(biāo)是最小化預(yù)測(cè)速度與線性軌跡上目標(biāo)漂移之間的均方誤差：

其中是模型在給定上下文條件下預(yù)測(cè)時(shí)間速度向量的輸出，而表示沿線性軌跡的真實(shí)瞬時(shí)速度。

統(tǒng)一的訓(xùn)練目標(biāo)。最終的訓(xùn)練目標(biāo)是離散和連續(xù)損失的加權(quán)總和：

其中和是平衡兩種模態(tài)的標(biāo)量超參數(shù)。在實(shí)踐中，本文在不同的訓(xùn)練階段（例如預(yù)訓(xùn)練與監(jiān)督微調(diào)階段）動(dòng)態(tài)調(diào)整這些系數(shù)，以優(yōu)先關(guān)注特定的能力（如視覺(jué)保真度或推理能力）。

訓(xùn)練pipeline

為了在遵循前面概述的架構(gòu)原則的同時(shí)最大化訓(xùn)練效率，本文基于一個(gè)專門(mén)為理解任務(wù)優(yōu)化的預(yù)訓(xùn)練 MLLM 進(jìn)行初始化。由于基礎(chǔ) MLLM 缺乏視覺(jué)生成能力，本文設(shè)計(jì)了一個(gè)三階段課程（curriculum），在將視覺(jué)合成技能與語(yǔ)義推理統(tǒng)一起來(lái)之前，逐步解鎖這些技能。

階段 1：生成頭預(yù)訓(xùn)練。在初始階段，本工作專注于將新初始化的視覺(jué)生成頭與 MLLM 的潛空間對(duì)齊。本文凍結(jié)了 MLLM 以保留其語(yǔ)義表示，僅訓(xùn)練生成頭和投影器。遵循前人工作，本文跳過(guò)了 256px 的預(yù)訓(xùn)練，直接使用 512px 的固定分辨率來(lái)加速早期收斂。與以往僅依賴文本到圖像數(shù)據(jù)進(jìn)行初始化的方法不同，本文從一開(kāi)始就混合使用了文生圖和圖像編輯數(shù)據(jù)集。這種多任務(wù)策略迫使生成頭同時(shí)關(guān)注文本指令和視覺(jué)上下文 Token，為多模態(tài)條件對(duì)齊奠定了堅(jiān)實(shí)的基礎(chǔ)。

階段 2：任意分辨率的持續(xù)預(yù)訓(xùn)練。在穩(wěn)定初始化的基礎(chǔ)上，本文推進(jìn)到可變分辨率的訓(xùn)練，以處理多樣化的長(zhǎng)寬比并增強(qiáng)視覺(jué)保真度。此時(shí) MLLM 骨干網(wǎng)絡(luò)仍保持凍結(jié)。本文對(duì)訓(xùn)練語(yǔ)料庫(kù)進(jìn)行了二次過(guò)濾，僅保留高美感樣本，并丟棄那些長(zhǎng)寬比極端且可能引起訓(xùn)練不穩(wěn)定的樣本。生成圖像的分辨率控制在 512 到 1024 像素之間，而長(zhǎng)寬比維持在 0.5 到 2.0 之間。對(duì)于圖像編輯任務(wù)，保持輸入條件與輸出之間的像素級(jí)對(duì)齊至關(guān)重要。為此，本文進(jìn)一步將條件圖像的 VAE 潛變量顯式地注入到視覺(jué)生成頭中，以實(shí)現(xiàn)更好的像素級(jí)一致性。

階段 3：統(tǒng)一監(jiān)督微調(diào)。最后一個(gè)階段旨在進(jìn)一步融合前幾個(gè)階段獲得的視覺(jué)生成能力與預(yù)訓(xùn)練 MLLM 的推理能力。因此，包含 MLLM 骨干在內(nèi)的整個(gè)模型均被解凍，以實(shí)現(xiàn)端到端的優(yōu)化。訓(xùn)練語(yǔ)料庫(kù)基于更嚴(yán)格的標(biāo)準(zhǔn)進(jìn)一步過(guò)濾，并加入了額外 CoT 推理數(shù)據(jù)。通過(guò)將這些 CoT 數(shù)據(jù)與圖像生成和編輯數(shù)據(jù)混合，模型被賦予了在視覺(jué)域執(zhí)行生成之前，先通過(guò)文本推理進(jìn)行規(guī)劃的能力。

數(shù)據(jù)構(gòu)建

介紹了 InternVL-U 為何能在僅有 4B 參數(shù)的情況下實(shí)現(xiàn)強(qiáng)大的生成與編輯能力——核心在于其構(gòu)建的一套高質(zhì)量、高語(yǔ)義密度的數(shù)據(jù)合成pipeline。

基礎(chǔ)數(shù)據(jù)清洗與多粒度標(biāo)注：

開(kāi)源數(shù)據(jù)整合與清洗：收集了海量開(kāi)源的文生圖和圖像編輯數(shù)據(jù)，并通過(guò)多維度過(guò)濾（美學(xué)評(píng)分、分辨率、去重、去水印、安全過(guò)濾）獲取高質(zhì)量子集。

多粒度 Caption 打標(biāo)：利用先進(jìn)的 MLLM（如 Qwen2.5-VL）生成從簡(jiǎn)短（Concise）、密集（Dense）到以人為中心（Human-centric）的不同粒度圖像描述，增強(qiáng)文本與視覺(jué)概念的綁定。

四大高語(yǔ)義密度垂直領(lǐng)域數(shù)據(jù)合成：

以文本為中心（Text-centric）：為了解決生成模型中“文字亂碼”的問(wèn)題，專門(mén)設(shè)計(jì)了中英雙語(yǔ)的渲染與編輯pipeline。包括在純色或自然背景上動(dòng)態(tài)排版文字，以及利用 OCR 和大模型結(jié)合的精準(zhǔn)文本替換數(shù)據(jù)。

2. 以科學(xué)為中心（Science-centric）：針對(duì)物理、化學(xué)、生物和計(jì)算機(jī)科學(xué)，利用編程工具（如 GeoGebra、SVG、matplotlib）合成具有嚴(yán)格邏輯和高度結(jié)構(gòu)化的視覺(jué)文本數(shù)據(jù)（如復(fù)雜的物理受力圖、二叉樹(shù)結(jié)構(gòu)圖等）。

3. 以空間幾何為中心（Spatial-centric）：針對(duì)空間關(guān)系的精準(zhǔn)控制，合成了包含3D立體幾何旋轉(zhuǎn)、平移、多視圖 CAD 等數(shù)據(jù)，確保模型具備嚴(yán)格的三維空間感知能力。

4. 以幽默/熱梗為中心（Humor-centric/Meme）：設(shè)計(jì)了包含文本檢測(cè)、消除、指令生成的五階段pipeline，專門(mén)用于表情包（Meme）的生成與二次編輯，捕捉人類的幽默、諷刺等抽象情緒。

核心殺手锏：以推理為中心的數(shù)據(jù)合成 (Reasoning-centric / CoT Paradigm) ：

解決“抽象指令”痛點(diǎn)：用戶通常給出的指令非常簡(jiǎn)短模糊（如“畫(huà)一個(gè)過(guò)周末的表情包”或“把這個(gè)改成玻璃材質(zhì)”）。

思維鏈增強(qiáng)：引入 CoT，利用大模型作為“翻譯官”，在原始輸入和最終輸出之間插入顯式的推理步驟。將抽象指令轉(zhuǎn)化為包含具體對(duì)象細(xì)節(jié)、屬性約束、執(zhí)行步驟的詳細(xì)描述，為模型提供更清晰、穩(wěn)定的監(jiān)督信號(hào)。

實(shí)驗(yàn)評(píng)估

通過(guò)大量的基準(zhǔn)測(cè)試，全面驗(yàn)證了 InternVL-U 在“理解-推理-生成-編輯”四個(gè)維度的全能表現(xiàn)及“越級(jí)”戰(zhàn)斗力。

實(shí)驗(yàn)設(shè)置與輕量化優(yōu)勢(shì)：

模型總參數(shù)量?jī)H為 4B（2B 的理解骨干 + 1.7B 的視覺(jué)生成頭），但在測(cè)試中全面對(duì)標(biāo)甚至超越了規(guī)模是其數(shù)倍（如 14B 甚至 20B）的統(tǒng)一多模態(tài)模型和專用生成模型。

多模態(tài)理解與推理 (強(qiáng)大的基本盤(pán)) ：

無(wú)災(zāi)難性遺忘：在賦予模型生成和編輯能力后，InternVL-U 在 MME-P、OCRBench、MMMU 等 7 個(gè)主流理解榜單上依然保持了頂尖水平，大幅超越同級(jí)別的統(tǒng)一模型（如 Janus-Pro, Ovis-U1），并在 MMMU 上打平了 14B 參數(shù)的 BAGEL。

圖像生成能力 (Text-to-Image Generation) ：

通用生成：在 GenEval 和 DPG-Bench 上取得統(tǒng)一模型中的最高分，證明其在物體組合、屬性綁定方面的精準(zhǔn)度。

文本渲染（拔尖能力）：在 CVTG-2k 和 LongText-Bench 上表現(xiàn)出斷層式的領(lǐng)先，完美解決了以往統(tǒng)一模型難以渲染清晰、準(zhǔn)確中英雙語(yǔ)文字的缺陷。

知識(shí)密集型生成：得益于 CoT 策略，在 WISE 和 GenExam（包含數(shù)理化生等學(xué)科題目）榜單上，模型能夠正確調(diào)用內(nèi)在的世界知識(shí)生成符合科學(xué)事實(shí)的圖像，CoT 的加入帶來(lái)了極其顯著的性能飛躍。

圖像編輯能力 (Image Editing) ：

通用與文本編輯：在常規(guī)編輯榜單中展現(xiàn)了高保真的材質(zhì)替換與風(fēng)格遷移能力。為了評(píng)估文本編輯，本文還專門(mén)提出了一個(gè)新的高質(zhì)量基準(zhǔn) TextEdit，在這個(gè)榜單上，InternVL-U 的 F1 分?jǐn)?shù)直接對(duì)齊了閉源商業(yè)大模型（GPT-Image-1.5, Nano Banana Pro），遠(yuǎn)超開(kāi)源競(jìng)品。

推理驅(qū)動(dòng)編輯：在高度依賴邏輯推導(dǎo)的 RISEBench 榜單上，加入 CoT 策略的 InternVL-U 得分從 3.6 暴漲至 9.4，擊敗了所有開(kāi)源統(tǒng)一模型以及專用的 Qwen-Image-Edit。模型能夠完美執(zhí)行如“時(shí)間計(jì)算”、“算法規(guī)則（二叉樹(shù)插入）”等復(fù)雜邏輯約束下的修改。

結(jié)論

InternVL-U，一個(gè)統(tǒng)一的多模態(tài)模型，有效實(shí)現(xiàn)了理解、推理、生成與編輯能力的普及。通過(guò)遵循統(tǒng)一上下文建模（Unified context modeling）、特定模態(tài)模塊化（Modality-specific modularity）以及視覺(jué)表示解耦（Decoupled visual representations）的原則，本文架構(gòu)將強(qiáng)大的生成能力無(wú)縫集成到了表現(xiàn)優(yōu)異的理解骨干網(wǎng)絡(luò)中。

為了進(jìn)一步彌合高層智能與視覺(jué)生成之間的鴻溝，本文引入了結(jié)合思維鏈（CoT）范式的全面數(shù)據(jù)合成pipeline，使模型能夠?qū)⒂脩舫橄蟮囊鈭D與精準(zhǔn)的視覺(jué)執(zhí)行完美對(duì)齊。實(shí)證結(jié)果證實(shí)，InternVL-U 不僅在知識(shí)密集型的生成和編輯任務(wù)中表現(xiàn)出色，而且在多模態(tài)理解與推理基準(zhǔn)測(cè)試中依然保持了極具競(jìng)爭(zhēng)力的性能。

希望 InternVL-U 能夠作為一個(gè)強(qiáng)大的基線模型，從而加速整個(gè)社區(qū)在開(kāi)發(fā)全面、全能且面向 AGI（通用人工智能）的統(tǒng)一多模態(tài)模型（UMMs）方面的研究進(jìn)程。

參考文獻(xiàn)

[1] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

原文標(biāo)題 : 4B參數(shù)干翻14B！國(guó)產(chǎn)統(tǒng)一多模態(tài)“全能戰(zhàn)士” InternVL-U開(kāi)源：理解、生成與編輯迎新高度