用于大規(guī)模圖像縮放識(shí)別的Vision Transformer
在本文中,我想在不作太多技術(shù)細(xì)節(jié)的情況下,解釋作者提交給2021 ICLR會(huì)議的新論文“an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale”的研究成果(目前為止匿名)。自1960年以來(lái)深度學(xué)習(xí)就已經(jīng)問(wèn)世,但促使深度學(xué)習(xí)真正來(lái)到了前列的,是2012年的AlexNet模型,一個(gè)卷積網(wǎng)絡(luò),由Alex Krizhevsky設(shè)計(jì),贏得了年度ImageNet圖像分類競(jìng)賽的冠軍。在接下來(lái)的幾年里,深度計(jì)算機(jī)視覺技術(shù)經(jīng)歷了一場(chǎng)真正的革命,每年都會(huì)出現(xiàn)新的卷積體系結(jié)構(gòu)(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基準(zhǔn)數(shù)據(jù)集(如CIFAR-10、CIFAR-100)上創(chuàng)下新的精度記錄。下圖顯示了自2011年以來(lái)ImageNet數(shù)據(jù)集上機(jī)器學(xué)習(xí)模型的最高精度的進(jìn)展情況。
然而,在過(guò)去的幾年里,深度學(xué)習(xí)最有趣的發(fā)展不是在圖像領(lǐng)域,而是在自然語(yǔ)言處理(NLP)中,特別是注意力機(jī)制,這是由Ashish Vaswani等人在2017年的論文“Attention Is All You Need”中首次提出的。注意力機(jī)制的思想,指的是可訓(xùn)練的權(quán)重,模擬輸入句子不同部分之間的每個(gè)連接的重要性,它對(duì)NLP的影響類似于計(jì)算機(jī)視覺中的卷積網(wǎng)絡(luò),極大地提高了機(jī)器學(xué)習(xí)模型對(duì)各種語(yǔ)言任務(wù)(如自然語(yǔ)言理解)的效果還有機(jī)器翻譯的效果。注意力之所以對(duì)語(yǔ)言數(shù)據(jù)特別有效,是因?yàn)槔斫馊祟愓Z(yǔ)言通常需要跟蹤長(zhǎng)期依賴關(guān)系。我們可能會(huì)先說(shuō)“我們到達(dá)了紐約”,然后說(shuō)“城市的天氣很好”,對(duì)于任何人類讀者來(lái)說(shuō),應(yīng)該很清楚,最后一句話中的“城市”指的是“紐約”,但對(duì)于一個(gè)只基于在附近數(shù)據(jù)(如卷積網(wǎng)絡(luò))中找到模式的模型來(lái)說(shuō),這種聯(lián)系可能無(wú)法檢測(cè)。長(zhǎng)期依賴性的問(wèn)題可以通過(guò)使用遞歸網(wǎng)絡(luò)來(lái)解決,例如LSTMs,在Transformer之前,LSTMs實(shí)際上是NLP中的頂級(jí)模型,但即使是這些模型,也很難匹配特定的單詞。Transformer中的全局注意力機(jī)制衡量了文本中任意兩個(gè)單詞之間每一個(gè)連接的重要性,這解釋了它們性能的優(yōu)越之處。對(duì)于注意力不那么重要的序列數(shù)據(jù)類型(例如,日銷售額或股票價(jià)格等時(shí)域數(shù)據(jù)),遞歸網(wǎng)絡(luò)仍然具有很強(qiáng)的競(jìng)爭(zhēng)力,可能仍是最佳選擇。雖然在NLP等序列模型中,遠(yuǎn)距離對(duì)象之間的依賴關(guān)系可能具有特殊的意義,但在圖像任務(wù)中,它們同樣也不能被忽略,要形成一幅完整的圖畫,通常需要了解圖像的各個(gè)部分。到目前為止,注意力機(jī)制在計(jì)算機(jī)視覺中一直表現(xiàn)不佳的原因在于縮放它們的難度(它們的縮放比例為N?,因此1000x1000圖像的像素之間的全套注意力權(quán)重將具有一百萬(wàn)項(xiàng))。也許更重要的是,圖片中的各個(gè)像素本身并不是很有意義,因此通過(guò)注意力將它們連接起來(lái)并沒有太大作用。這篇新論文提出了一種方法,即不關(guān)注像素點(diǎn),而是關(guān)注圖像的小塊區(qū)域(可能是標(biāo)題中的16x16,盡管最佳塊尺寸實(shí)際上取決于模型的圖像尺寸和內(nèi)容)。
上面的圖片(摘自論文)顯示了Vision Transformer的工作方式。通過(guò)使用線性投影矩陣將輸入圖像中的每個(gè)色塊展平,并向其添加位置嵌入(學(xué)習(xí)的數(shù)值,其中包含有關(guān)該色塊最初在圖像中的位置信息),這是必需的,因?yàn)門ransformer會(huì)處理所有輸入,而不考慮其順序,所以擁有此位置信息有助于模型正確評(píng)估注意力權(quán)重。額外的類標(biāo)記連接到輸入(圖像中的位置0),作為要在分類任務(wù)中預(yù)測(cè)的類的占位符。類似于2017版,該Transformer編碼器由多個(gè)注意力,規(guī)范化和完全連接的層組成,這些層具有殘差(跳過(guò))連接,如圖中的右半部分所示。在每個(gè)關(guān)注區(qū)域中,多個(gè)頭部可以捕獲不同的連接模式。如果你有興趣了解有關(guān)Transformer的更多信息,我建議閱讀Jay Alammar撰寫的這篇出色的文章。輸出端完全連接的MLP頭可提供所需的類別預(yù)測(cè),主模型可以在大型圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后可以通過(guò)標(biāo)準(zhǔn)的遷移學(xué)習(xí)方法將最終的MLP頭微調(diào)為特定任務(wù)。新模型的一個(gè)特點(diǎn)是,盡管根據(jù)本文的研究,它比卷積方法更有效地以更少的計(jì)算量獲得相同的預(yù)測(cè)精度,但隨著它接受越來(lái)越多的數(shù)據(jù)訓(xùn)練,其性能似乎在不斷提高,這比其他模型更甚。這篇文章的作者在一個(gè)包含3億的私有g(shù)ooglejft-300M數(shù)據(jù)集上訓(xùn)練了Vision Transformer圖像,從而在許多基準(zhǔn)測(cè)試中都獲得了最先進(jìn)的準(zhǔn)確性。我們可以期待這個(gè)預(yù)先訓(xùn)練過(guò)的模型很快就會(huì)發(fā)布出來(lái),以便我們都可以試用?吹缴窠(jīng)注意力在計(jì)算機(jī)視覺領(lǐng)域的新應(yīng)用,實(shí)在太令人興奮了!希望在未來(lái)的幾年里,在這種發(fā)展的基礎(chǔ)上,能取得更大的進(jìn)步!
☆ END ☆如果看到這里,說(shuō)明你喜歡這篇文章,請(qǐng)轉(zhuǎn)發(fā)、點(diǎn)贊。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀察
- 7 8 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 地平線的野心:1000萬(wàn)套HSD上車