OpenAI提出Image GPT實(shí)現(xiàn)高質(zhì)量圖像補(bǔ)全和樣本生成
實(shí)現(xiàn)方法
研究人員分別在ImageNet上訓(xùn)練了大中小三個(gè)GPT-transformer模型,分別包含了1.4B,455M,76M的參數(shù)。同時(shí)還利用ImageNet和網(wǎng)絡(luò)數(shù)據(jù)共同訓(xùn)練了包含6.8B參數(shù)的iGPT-XL,由于長序列訓(xùn)練需要消耗非常大的計(jì)算資源,所有的訓(xùn)練都在較低的圖像分辨率上進(jìn)行(32x32,48x48,64x64)。
雖然研究人員嘗試在更低的分辨率上繼續(xù)減小計(jì)算資源的消耗,但先前研究認(rèn)為人眼的識(shí)別分類能力會(huì)隨圖像尺寸的減小而迅速變?nèi)。在先前顯示模型研究的啟發(fā)下,構(gòu)建了9-bits的顏色表示模式,可以用較為真實(shí)的編碼顏色同時(shí)代替RGB三個(gè)通道。
實(shí)驗(yàn)結(jié)果
研究人員使用了兩種方法來評(píng)測模型的分類性能。第一種類似一個(gè)線性探測器,利用訓(xùn)練好的模型從圖像中抽取特征進(jìn)行分類,隨后用邏輯回歸擬合圖像的標(biāo)簽。另一種方式是在下游任務(wù)數(shù)據(jù)上對整個(gè)模型進(jìn)行調(diào)優(yōu)。為了抽取特征,在某些層的輸入添加了layernorm注意力模塊,并在序列維度上使用了平均池化。為了調(diào)優(yōu)模型,研究人員使用了layernorm transformer的輸出,并在序列維度上進(jìn)行平均池化來作為分類部分的輸入。
由于針對序列中下一個(gè)像素的預(yù)測與圖像分類并沒有明顯的關(guān)系,最后層的特征對于目標(biāo)分類并不是最好的。從結(jié)果中可以看出一開始特征質(zhì)量在迅速提升,而后隨著深度的增加緩慢減小。這一現(xiàn)象表明transformer生成模型在運(yùn)行中有兩個(gè)顯著的階段,在第一階段每個(gè)位置從它周圍的上下文中獲取信息以構(gòu)建出有效的的圖像特征;而后在第二階段上下文特征被用于解決下一個(gè)像素的條件生成問題。在這種線性探測器下觀測到的兩階段現(xiàn)象很容易讓人聯(lián)想到具有約束結(jié)構(gòu)(bottleneck)的自編碼器,其中間層就是手動(dòng)設(shè)置用于特征抽取的結(jié)構(gòu)。
特征質(zhì)量與層深度具有明顯的相關(guān)性,與監(jiān)督模型不同,生成模型特征質(zhì)量最高的位置來自于模型網(wǎng)絡(luò)的中間部分。
隨后的實(shí)驗(yàn)結(jié)果還顯示了生成模型性能和特征質(zhì)量之間的關(guān)系,研究發(fā)現(xiàn)隨著模型規(guī)模的訓(xùn)練迭代的增加,生成模型的性能也會(huì)逐步增加,并直接反映在更好的特征質(zhì)量(分類精度)上。
圖中每條線都代表了不同的生成預(yù)訓(xùn)練模型在不同迭代下的結(jié)果。正的斜率表明生成模型的特征質(zhì)量隨著訓(xùn)練次數(shù)的增加而不斷提高,更大的模型也顯示出了更好的結(jié)果。
當(dāng)研究人員在CIFAR-10, CIFAR-100, STL-10數(shù)據(jù)集上測評(píng)模型性能時(shí),可以看到提出的方法超過了所有的監(jiān)督和非監(jiān)督遷移算法,同時(shí)也超過了完全調(diào)優(yōu)情況下的結(jié)果。
線性探測器和調(diào)優(yōu)方法的精度比較,這些方法使用了監(jiān)督或非監(jiān)督的ImageNet遷移。結(jié)果中也包含了CIFAR上最好的端到端模型AutoAugment方法。
在不同的設(shè)置下,與不同的監(jiān)督、非監(jiān)督方法進(jìn)行了比較。訓(xùn)練的圖像分辨率為48x48,iGPT-L的特征維度為1536,實(shí)現(xiàn)了65.2%的top-1精度,已經(jīng)超越了AlexNet的性能。
典型的特征維度一般都是8192維度,但訓(xùn)練如此龐大特征的iGPT模型非常耗時(shí),所以研究人員將最后基層的特征疊加起來作為8192維的近似。但由于iGPT中的特征在不同層間存在相關(guān)性,所有需要更多的維度才能獲得更具競爭力的效果。最終的設(shè)置使用了來自5層上的15360維的特征,實(shí)現(xiàn)了72%的top1精度,超過了AMDIM, MoCo, CPC v2等算法,但和最好的SimCLR還有一定的差距。

發(fā)表評(píng)論
請輸入評(píng)論內(nèi)容...
請輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
11月28日立即下載>> 【白皮書】精準(zhǔn)洞察 無線掌控——283FC智能自檢萬用表
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動(dòng)駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 10 機(jī)器人9月大事件|3家國產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市