當前位置:

OFweek 人工智能網(wǎng)

評測

真“六邊形戰(zhàn)士”!Capybara把圖像視頻全打通:一個模型搞定T2I、T2V、I2V!

作者:Capybara 團隊 解讀:AI生成未來 亮點直擊 統(tǒng)一的視覺創(chuàng)作模型 Capybara: 針對當前視覺內(nèi)容創(chuàng)作領域高度碎片化(單一模態(tài)、功能割裂、接口不兼容)的問題,本文提出了Capybar

2026-03-16 16:20 評論

大廠“龍蝦”vs開源“澳龍”,2026 claw橫評

2026年3月,一只紅色的“龍蝦”爬上了開源世界的王座。OpenClaw憑借27.3萬的GitHub星標,超越了Linux——英偉達CEO黃仁勛更是將其譽為“我們這個時代最重要的軟件發(fā)布”。 它標志著

2026-03-16 10:41 評論

4B參數(shù)干翻14B!國產(chǎn)統(tǒng)一多模態(tài)“全能戰(zhàn)士” InternVL-U開源:理解、生成與編輯迎新高度

作者:Changyao Tian等 解讀:AI生成未來 InternVL-U生成和圖像編輯效果 亮點直擊 InternVL-U 架構:構建了一個僅有 4B 參數(shù)的輕量級、高效統(tǒng)一多模態(tài)模型(UMM),

2026-03-13 14:33 評論

圖像生成迎來“思考-研究-創(chuàng)造”新范式!Mind-Brush:統(tǒng)一意圖分析、多模態(tài)搜索和知識推理

作者:Jun He,Junyan Ye等 解讀:AI生成未來 亮點直擊 Mind-Brush,一個新穎的智能體框架,該框架統(tǒng)一了意圖分析、多模態(tài)搜索和知識推理,以實現(xiàn)圖像生成的“思考-研究-創(chuàng)造”范式

2026-03-12 13:56 評論

Openclaw部署實錄:安裝易翻車、本地模型弱,本地「龍蝦」不適合普通人

有的錢可不是那么好省的。 這段時間,如果你關注AI圈子,一定會被一個名字給刷屏——Openclaw。 (圖源:百度) 上到GITHUB這個最大的開源社區(qū),中到各種媒體爭相轉(zhuǎn)發(fā),下到各個up主甚至普通人

2026-03-10 15:58 評論

ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”:基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA

作者:Zihan Zhou,Shilin Lu等 解讀:AI生成未來 亮點直擊 首個基于 Diffusion Transformer(DiT)架構量身打造的圖像精確區(qū)域編輯框架。 研究團隊摒棄了傳統(tǒng)的

2026-03-09 17:19 評論

CVPR 2026|“像素級對齊大師” VA-π: 25分鐘微調(diào)FID暴降50%

作者:Xinyao Liao*, Qiyuan He*, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao 作者單位:華中科技大學,新加坡國立大學解讀

2026-03-03 17:13 評論

CVPR 2026|“全能AI海報設計師”PosterOmni開源: 6大任務笑傲開源社區(qū),媲美閉源商用

作者:Sixiang Chen等 解讀:AI生成未來 很多AI 海報生成默認從一句 prompt 出發(fā)(Text-to-Poster)。但在真實設計流程里,更常見的起點其實是一張參考圖/舊海報/產(chǎn)品主

2026-02-26 15:04 評論

NeurIPS`25 | 清華提出模型驅(qū)動的生成式探索機制MoGE,助力強化學習算法突破性能上限

作者:Likun Wang等 解讀:AI生成未來 本文介紹清華大學李升波教授課題組(iDLab)在NeurIPS 2025發(fā)表的《Off-policy Reinforcement Learning w

2026-02-25 16:32 評論

顛覆性突破!何愷明團隊重磅工作「Drifting Models」革新生成范式:一步推理直接創(chuàng)紀錄

作者:Mingyang Deng等 解讀:AI生成未來 亮點直擊 全新的生成范式:提出了“漂移模型” (Drifting Models),這一范式不再依賴于推理時的迭代過程,而是將分布演化的過程轉(zhuǎn)移到

2026-02-10 16:19 評論

一張圖生成游戲?谷歌Genie體驗:萬物皆可玩,但離“殺死游戲公司”還遠

一張圖生成游戲,真的假的? 在開始之前,我想先問大家一個簡單的問題: 你們還在苦苦等待《GTA 6》的發(fā)售嗎? 我是不清楚大家的想法啦,但小雷真的非常期待它的到來。要知道《GTA 5》發(fā)布至今已經(jīng)過去

2026-02-09 10:24 評論

視頻理解大模型覺醒!Video-o3發(fā)布:像偵探一樣主動搜尋關鍵幀,登頂Video-Holmes!

作者:Xiangyu Zeng等 解讀:AI生成未來 亮點直擊 Video-o3,一個創(chuàng)新的框架,它通過迭代地發(fā)現(xiàn)顯著的視覺線索、對關鍵片段進行細致檢查以及在收集到足夠證據(jù)時自適應終止搜索過程,解決了

2026-02-05 14:53 評論

Google“AI奧運會”:用游戲基準測試模型真實能力

AI新產(chǎn)品每天接連發(fā)布,測試基準和平臺也是層出不窮。 不過,你是否想過,游戲也能用來測試AI? 2026年2月初,Google和Kaggle一起想出了一個新點子:在Kaggle的Game Arena上

2026-02-04 10:56 評論

擴散模型迎來“終極簡化”!何愷明團隊新作:像素級一步生成,速度質(zhì)量雙巔峰

作者:Yiyang Lu等 解讀:AI生成未來 亮點直擊 Pixel MeanFlow (pMF)?,這是一種針對一步生成(one-step generation)的創(chuàng)新圖像生成模型。pMF 的核心突

2026-02-02 15:51 評論

擴散模型對齊迎來“最強解”!HyperAlign屠榜評測:超網(wǎng)絡動態(tài)適配,畫質(zhì)、語義雙巔峰

作者:Xin Xie等 解讀:AI生成未來 亮點直擊 HyperAlign,一種通過超網(wǎng)絡自適應調(diào)整去噪操作的框架,能夠高效且有效地實現(xiàn)擴散模型的測試時對齊,確保生成的圖像更好地反映用戶意圖的文本語義

2026-01-27 16:14 評論

一統(tǒng)視覺江湖!OpenVision 3發(fā)布:一個編碼器實現(xiàn)理解與生成完美統(tǒng)一,性能雙殺CLIP

作者:Letian Zhang等 解讀:AI生成未來 亮點直擊 統(tǒng)一架構:OpenVision 3是一種先進的視覺編碼器,能夠?qū)W習單一、統(tǒng)一的視覺表示,同時服務于圖像理解和圖像生成任務。 簡潔設計:核

2026-01-26 16:27 評論

告別時空崩壞,生成式游戲迎來“穩(wěn)態(tài)”時刻!南大等StableWorld:打造無限續(xù)航虛擬世界

作者:Ying Yang等 解讀:AI生成未來 亮點直擊 識別了長時交互式世界建模中不穩(wěn)定性的根本原因:同一場景內(nèi)的微小漂移會不斷累積,最終導致整體場景崩潰。 一種簡單而有效的方法?StableWor

2026-01-26 16:22 評論

角色動畫最新SOTA!港大&螞蟻等CoDance:解綁-重綁實現(xiàn)任意數(shù)量、位置角色同屏起舞

作者:Shuai Tan等 解讀:AI生成未來 圖1。由CoDance生成的多主體動畫。給定一個(可能錯位的)驅(qū)動姿勢序列和一張多主體參考圖像,CoDance生成協(xié)調(diào)且可姿勢控制的群舞,無需每個主體的

2026-01-20 13:48 評論

視頻生成效率革命!英偉達TMD蒸餾框架:Wan2.1模型實時化,速度和質(zhì)量最佳均衡!

作者:Weili Nie等 解讀:AI生成未來 亮點直擊 一種新穎的視頻擴散蒸餾框架:?轉(zhuǎn)移匹配蒸餾(TMD),它將長去噪軌跡蒸餾成緊湊的少步概率轉(zhuǎn)移過程。 解耦的擴散主干設計:?將教師模型分解為語義

2026-01-19 15:31 評論

Qwen3-VL-Flash提升13.62%!浙大等首創(chuàng)CoV:多步推理具身問答Agent,通用提點神器

作者:CoV團隊 解讀:AI生成未來 亮點直擊 CoV 框架:首創(chuàng)“視鏈提示”(Chain-of-View, CoV),一個免訓練、測試時(test-time)的具身問答智能體框架。 主動視覺推理:將

2026-01-14 14:06 評論
上一頁   1  2 3 4 5 6 7 ... 10   下一頁

資訊訂閱

粵公網(wǎng)安備 44030502002758號