訂閱
糾錯
加入自媒體

鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!

作者:Tianyang Han等

解讀:AI生成未來

本文第一作者Tianyang Han是美團(tuán)MeiGen團(tuán)隊的算法研究科學(xué)家,主要研究方向是圖像生成和多模態(tài)大語言模型。

亮點直擊

PicWorld,一個旨在評估文本到圖像模型隱含推理能力的綜合性基準(zhǔn)。據(jù)我們所知,PicWorld是首個大規(guī)模、系統(tǒng)性的基準(zhǔn),專門用于評估模型對隱含世界知識(如遵循基本物理定律)和邏輯因果推理的理解。

提出了PW-Agent,一種新穎的自動化評估框架,它采用基于智能體分解的層次化評估。這種多智能體流程系統(tǒng)地將復(fù)雜提示分解為可驗證的物理和邏輯組件,從而實現(xiàn)對模型在基準(zhǔn)上表現(xiàn)的可復(fù)現(xiàn)和可擴(kuò)展分析。

全面實驗表明,現(xiàn)有的文本到圖像模型,特別是開源模型,在物理和邏輯推理能力上表現(xiàn)出局限性,這凸顯了未來需要改進(jìn)的關(guān)鍵領(lǐng)域。

總結(jié)速覽

解決的問題

心能力缺失:當(dāng)前文生圖模型缺乏對隱含世界知識物理因果推理的理解。它們能生成逼真且符合指令的圖像,但在需要常識和邏輯推理的提示詞上經(jīng)常失敗。

評估體系不完善:現(xiàn)有的評估方法要么側(cè)重于組合對齊(即圖像是否包含提示詞中提到的元素),要么依賴單輪視覺問答進(jìn)行打分。這導(dǎo)致對知識基礎(chǔ)、多物理交互和可審計的證據(jù)等關(guān)鍵維度的測試嚴(yán)重不足。

評估方法不可靠:依賴多模態(tài)大語言模型進(jìn)行整體評判的現(xiàn)有方法存在幻覺(看到不存在的東西)、中心傾向偏差(打分趨于中庸)等問題,無法進(jìn)行精細(xì)、可靠的評估。

提出的方案

PicWorld基準(zhǔn):提出了第一個用于系統(tǒng)評估文生圖模型隱含世界知識掌握程度物理因果推理能力的綜合基準(zhǔn)。它包含1,100個提示詞,涵蓋三個核心類別:

物理世界

抽象知識

邏輯與常識推理

PW-Agent評估框架:設(shè)計了一個基于證據(jù)的多智能體評估管道,以進(jìn)行分層、精細(xì)化的評估。該框架包含四個專門化的智能體:

世界知識提取器:將提示詞分解為原子化的、可圖像驗證的期望。

假設(shè)構(gòu)建器:根據(jù)分解出的期望,構(gòu)建可驗證的視覺問題。

視覺感知器:從圖像中尋找視覺證據(jù)來回答問題。

推理評判器:通過基于演繹的連續(xù)評分方案,結(jié)合檢查清單式的原子性和重要性權(quán)重,匯總答案并給出最終分?jǐn)?shù)。

應(yīng)用的技術(shù)

多模態(tài)大語言模型

基準(zhǔn)構(gòu)建:利用先進(jìn)的MLLM(文中提及Gemini-2.5-Pro)來生成初始提示詞,并輔以人工嚴(yán)格篩選以確保質(zhì)量。

評估框架:PW-Agent的核心組件(如WKE, HF, VP, RJ)本質(zhì)上是基于MLLM構(gòu)建的智能體,協(xié)同完成解析、提問、感知和推理評判的任務(wù)。

多智能體系統(tǒng):采用分工協(xié)作的多智能體框架,將復(fù)雜的評估任務(wù)分解為更專業(yè)、可管理的子任務(wù),以提高評估的準(zhǔn)確性、可靠性和可解釋性。

分層評估維度:PW-Agent從三個層次對圖像進(jìn)行評估:指令遵循物理/邏輯真實性細(xì)節(jié)與細(xì)微差別

達(dá)到的效果

系統(tǒng)性評估:PicWorld基準(zhǔn)首次系統(tǒng)性地測試了文生圖模型對場景隱含后果的理解,而不僅僅是其顯式描述的組件。

精細(xì)化和可解釋的分析:PW-Agent通過分解提示詞和基于證據(jù)的驗證,提供了細(xì)粒度、多層面的分?jǐn)?shù),能夠深入且可解釋地分析模型的推理能力缺陷。

揭示模型根本性局限:對17個主流文生圖模型的全面分析表明,它們在不同程度上普遍存在對隱含世界知識和物理因果推理能力的根本性局限。

指明未來方向:該研究強(qiáng)調(diào)了未來文生圖系統(tǒng)需要集成推理能力和知識的架構(gòu),而不僅僅是提升圖像質(zhì)量和顯式指令跟隨能力。

PicWorld 基準(zhǔn)測試

當(dāng)前的評估方法主要關(guān)注語義的一致性和組合的準(zhǔn)確性,在很大程度上未對模型理解基本世界動態(tài)的能力進(jìn)行評估。為了填補(bǔ)文本生成圖像(T2I)模型隱性世界認(rèn)知評估的空白,本工作構(gòu)建了 PicWorld,旨在對 T2I 模型學(xué)習(xí)到的隱性自然規(guī)律進(jìn)行整體且細(xì)粒度的評估。

PicWorld 基準(zhǔn)構(gòu)建

如下圖 3 所示,PicWorld 包含總共 1,100 個精心策劃的提示詞(prompts),系統(tǒng)地組織在三個主要領(lǐng)域中。本工作手動設(shè)計了復(fù)雜的提示詞模板,每個模板都針對世界理解的特定方面。隨后,利用 Gemini-2.5-Pro 生成了大量的候選提示詞語料庫,并經(jīng)過人類專家的嚴(yán)格篩選和完善,以確保清晰度和復(fù)雜性。具體而言,這三個部分的細(xì)節(jié)如下:

物理世界

PicWorld 的物理世界領(lǐng)域旨在評估模型理解和視覺模擬支配現(xiàn)實的基本規(guī)律的能力。一個真正理解世界的模型不僅應(yīng)該識別物體,還應(yīng)該呈現(xiàn)它們在各種物理約束下的行為。缺乏這種內(nèi)在物理引擎的模型只能是一個非智能的生成器,只能描繪靜態(tài)物體,無法捕捉世界的動態(tài)因果本質(zhì)。本工作將該領(lǐng)域進(jìn)一步細(xì)分為三個核心類別:

力學(xué)與動力學(xué):評估模型對變形、運動、流體動力學(xué)和拋體運動等概念的理解。

光與電磁學(xué):考察模型對反射、折射、陰影和電現(xiàn)象等現(xiàn)象的掌握情況。

熱力學(xué):評估相變和熱傳遞的知識。 最終,本工作為此方面生成了 550 個提示詞。

抽象知識

該領(lǐng)域包含 200 個提示詞,旨在評估模型理解并準(zhǔn)確再現(xiàn)純粹存在于人類認(rèn)知和文化空間中的概念的能力。缺乏這種能力的模型只能生成字面描繪,而無法掌握概念、圖表和文化敘事在世界中扮演的抽象符號角色。它分為三個類別:

STEM 概念 :測試模型作為精確事實概念的視覺知識庫的能力。例如,“水分子的球棍模型  的干凈、極簡主義科學(xué)教科書插圖”這一提示詞直接測量模型的化學(xué)結(jié)構(gòu)知識,其中原子類型、數(shù)量和鍵角的準(zhǔn)確性至關(guān)重要。

文化與歷史 :評估模型對文化和歷史意義系統(tǒng)的熟悉程度。

人文符號系統(tǒng) :要求模型進(jìn)一步分解為理解非敘事符號,如旗幟、圖標(biāo)和樂譜。

邏輯與常識推理

該領(lǐng)域評估需要模型推斷邏輯關(guān)系并構(gòu)建連貫場景的高階認(rèn)知能力。沒有這種推理能力的模型生成的圖像雖然包含正確的元素,但在邏輯上是有缺陷的、空間不一致的或因果關(guān)系破裂的。本工作將該領(lǐng)域構(gòu)建為三個類別:

因果性與時間性:旨在測試模型對因果關(guān)系和時間流逝的理解。例如,“一把濕的、黑色的長柄傘被帶進(jìn)室內(nèi),打開并立在光滑、拋光的木地板上”這樣的提示詞,挑戰(zhàn)模型推斷出傘下有干燥的地板以及周圍有一灘水這一邏輯結(jié)果。

空間關(guān)系:探究模型對復(fù)雜和精確空間排列的理解。

綜合推理:設(shè)計為對最先進(jìn)模型(SOTA)的上限測試,要求它們同時模擬和協(xié)調(diào)多個不同的物理定律。 本工作最終為此方面生成了 350 個提示詞。

如下圖 2 所示,本工作展示了 PicWorld 的一些數(shù)據(jù)樣本。

通過代理分解進(jìn)行層次化評估

與以前直接評估圖像真實性或美學(xué)質(zhì)量的方法不同,本工作設(shè)計了 PW-Agent,這是一個層次化、分步的分析框架,采用結(jié)構(gòu)化、非線性且感知置信度的評分機(jī)制。PW-Agent 能夠?qū)?AI 生成圖像的物理世界理解進(jìn)行最終判斷,該判斷既具有高度區(qū)分性又非?煽。PW-Agent 的整體流程如下圖4 所示。

本工作通過一個包含四個模塊的證據(jù)驅(qū)動管道來評估針對提示詞  生成的圖像 :世界知識提取器 (World Knowledge Extractor, WKE)、假設(shè)制定器 (Hypothesis Formulator, HF)視覺感知器 (Visual Perceptor, VP) 和 推理評判器 (Reasoning Judger, RJ) 。這種設(shè)計是受到單次評判和粗略代理指標(biāo)失敗的啟發(fā),以及近期在問題驅(qū)動評估和以能力為中心的 T2I 基準(zhǔn)測試(強(qiáng)調(diào)組合性、常識、物理和世界知識)方面取得的進(jìn)展所驅(qū)動。

本工作在補(bǔ)充材料中提供了 PW-Agent 的偽代碼。

世界知識提取器 (WKE)

給定一個自然語言提示詞 ,WKE 推斷出一個結(jié)構(gòu)化的原子級、圖像可驗證的期望清單(checklist)。這些期望必須在  隱含的任何正確單幀描繪中成立,重點關(guān)注文字暗示的內(nèi)容,而不僅僅是重述它們。每個期望被定義為靜態(tài)圖像中的可見痕跡(例如,“圓潤的冰邊緣和周圍的水坑”,而不是“冰正在融化”),復(fù)合主張被系統(tǒng)地分解為最小的、獨立的項目,以確保全面覆蓋  可能僅隱式包含的潛在物理定律、因果后置條件、空間關(guān)系和事實知識。除了期望之外,WKE 還會輸出一個數(shù)值重要性值,定義了該期望應(yīng)被強(qiáng)制執(zhí)行的程度。 通常,WKE 生成一個集合 :

其中  是文本描述, 是重要性權(quán)重(低/中/高)。

假設(shè)制定器 (HF)

HF 將每個高級期望  轉(zhuǎn)化為具體的視覺問答(VQA)對,作為可審計的證據(jù)。這是通過生成一組二元或描述性問題  來實現(xiàn)的,如果這些問題的回答是肯定的,即確認(rèn)了期望的滿足。這一步彌合了抽象推理與具體像素級檢測之間的差距。

視覺感知器 (VP)

VP 充當(dāng)系統(tǒng)的眼睛。它接收圖像  和問題集 ,并輸出答案  以及置信度分?jǐn)?shù)  和作為基本原理的邊界框或區(qū)域描述。為了盡量減少幻覺,我們利用具有強(qiáng)大視覺能力的 MLLM(如 GPT-4o 或 Gemini)來執(zhí)行此任務(wù),并明確指示僅基于可見像素進(jìn)行回答。 對于每個問題 ,VP 輸出:

其中  是文本答案, 反映了檢測的確定性。

推理評判器 (RJ)

RJ 模塊并不進(jìn)行簡單的平均,而是應(yīng)用邏輯層次結(jié)構(gòu)來計算最終得分。它通過三個層次聚合證據(jù):

第 1 層:指令依從性 (Instruction Adherence)該層定量衡量模型遵循提示詞中顯式、字面指令的能力。它作為基礎(chǔ)檢查,用于驗證類型為 Existence(存在性)的問答對,例如核心主體的存在和指定屬性的準(zhǔn)確性。它在一個扣分系統(tǒng)上運行,其中高重要性指令的嚴(yán)重失敗會導(dǎo)致最低分。 得分  計算如下:

其中  是所有失敗的 Existence 類型事實的集合, 是基于事實  的重要性的懲罰分?jǐn)?shù)(高:5.0,中:3.0,低:1.0)。

第 2 層:物理/邏輯真實性 (Physics/Logical Realism)第 2 層評估生成的圖像在多大程度上符合物理和邏輯的基本定律,這是模型世界知識和推理能力的主要指標(biāo)。該分?jǐn)?shù)是通過根據(jù)重要性和相應(yīng)的置信度分?jǐn)?shù)對每個正確描述的現(xiàn)象(類型為 State)進(jìn)行加權(quán)來計算的。 得分  計算如下:

其中  是事實  的重要性權(quán)重, 是相應(yīng)的置信度分?jǐn)?shù), 是實現(xiàn)情況的指示函數(shù)。

第 3 層:細(xì)節(jié)與綜合細(xì)微差別 (Detail & Synthesis Nuance)第 3 層評估正確渲染的物理現(xiàn)象的質(zhì)量和復(fù)雜性,旨在區(qū)分合格的輸出和卓越的輸出。它使用加分和扣分規(guī)則:獎勵極其詳細(xì)的渲染以加分,同時懲罰不同效果之間的邏輯不一致。這一層反映了模型以細(xì)微差別模擬世界復(fù)雜性的高級能力。 得分  計算如下:

其中  代表基礎(chǔ)分?jǐn)?shù), 代表卓越加分, 代表不一致懲罰。

最終聚合與報告本工作通過以下公式計算名為 PW-Score 的總分:

為了進(jìn)一步利用 MLLM 強(qiáng)大的推理能力,還需要模型記錄一個人類可讀的思維過程,枚舉滿足/失敗的期望、應(yīng)用的懲罰/獎勵以及上述公式中的中間值。

實驗

實驗設(shè)置

本工作選擇了 17 個最先進(jìn)的模型進(jìn)行評估,涵蓋三類架構(gòu):

基于擴(kuò)散的模型:包括 FLUX.1-dev/schnell, Stable Diffusion (SD) 3.5 Large/Medium, SD 3 Medium, HiDream-l1-Full, Lumina-Image-2.0。統(tǒng)一多模態(tài)模型:包括 Emu3, JanusPro-1B/7B, JanusFlow-1.3B, Show-o-512, Bagel (帶/不帶 Thinking)。閉源模型:包括 DALL-E-3, Nano-Banana, SeedDream-4.0。 PW-Agent 使用 Qwen2.5-VL-72B 作為基礎(chǔ)模型。

主要結(jié)果

如下表 1 所示:

T2I 模型在隱性世界邏輯推理方面能力有限:幾乎所有模型在 STEM 和“因果性與時間性”類別上的得分都持續(xù)較低。即使是表現(xiàn)最好的 SeedDream-4.0,在 Symbol 和 STEM 上的得分也相對較低。這表明模型擅長復(fù)制視覺外觀(如陰影),但難以推斷隱性后果(如熱源附近的冰融化)。

閉源模型顯著優(yōu)于開源模型:閉源模型(如 SeedDream-4.0)與大多數(shù)公開模型之間存在明顯的性能差距。這部分歸因于閉源系統(tǒng)在推理管道中集成了復(fù)雜的預(yù)處理和提示詞工程(利用 MLLM 重寫提示詞,將隱性挑戰(zhàn)轉(zhuǎn)化為顯性指令)。

模型在基于知識的任務(wù)上表現(xiàn)優(yōu)于基于推理的任務(wù):模型在 Culture(文化)和 Symbol(符號)類別上的表現(xiàn)普遍優(yōu)于 STEM 和“因果性與時間性”。這是因為訓(xùn)練數(shù)據(jù)通常包含豐富的顯性名義知識,但缺乏學(xué)習(xí)隱性因果或時間關(guān)系所需的結(jié)構(gòu)化信息。

開源統(tǒng)一多模態(tài)模型的表現(xiàn)明顯低于領(lǐng)先的擴(kuò)散模型:如 Emu3 和 JanusPro 系列等自回歸模型在 PicWorld 基準(zhǔn)測試中通常處于較低的性能層級。這可能表明在模型的通用性與高保真物理模擬的專業(yè)能力之間存在權(quán)衡。

PW-Agent 的評估 (驗證 PW-Agent 的有效性):

與人類評估者的一致性:如下圖 5 所示,通過人類研究(3位資深工程師,成對比較),PW-Agent 與人類偏好的一致率達(dá)到 **90.5%**,表明其能有效辨別圖像質(zhì)量和物理合理性的細(xì)微差別。

消融研究 (PW-Agent vs. 直接評判) :

將 PW-Agent 與使用 GPT-4o 進(jìn)行零樣本直接評分的基線進(jìn)行比較。

人類評估者在 81.5% 的情況下傾向于 PW-Agent 的評分和推理(如下表 2 所示)。

如下圖 6 所示,直接評判表現(xiàn)出強(qiáng)烈的集中趨勢偏差(分?jǐn)?shù)分布壓縮),而 PW-Agent 利用了完整的評分范圍,具有更高的方差和區(qū)分度。

結(jié)論

PicWorld,這是一個以能力為中心的基準(zhǔn)測試,直接測試 T2I 模型是否可以利用隱性世界知識并生成符合物理定律和因果邏輯的圖像。PicWorld 將評估從粗略的“提示詞-圖像”相關(guān)性轉(zhuǎn)變?yōu)榻?jīng)過驗證的、針對每個事實的證據(jù),揭示了模型在知識落地、多物理交互以及超出提示詞顯式說明的邏輯后果方面的行為。

本工作進(jìn)一步提出了 PW-Agent,這是一個基于證據(jù)的評估器,它將提示詞轉(zhuǎn)化為可審計的檢查項,并將像素級的發(fā)現(xiàn)聚合成透明的、分層的分?jǐn)?shù)。這種方法既保留了基于查詢的評估的可擴(kuò)展性,又減少了單次(one-shot)評判的偏差和不可靠性。

在 PicWorld 上的實驗表明,盡管具有強(qiáng)大的提示詞依從能力,最先進(jìn)的系統(tǒng)——尤其是開源模型——在物理真實感和因果推理方面仍然舉步維艱。本工作希望 PicWorld 和 PW-Agent 的結(jié)合使用能為模型比較提供可操作的診斷,從而指導(dǎo)數(shù)據(jù)整理和推動方法的進(jìn)一步發(fā)展。

參考文獻(xiàn)

[1] Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models

       原文標(biāo)題 : 鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號