技術(shù)文章:目標(biāo)檢測--CornerNet的缺陷
前言:
目標(biāo)檢測的預(yù)測框經(jīng)過了滑動(dòng)窗口、selective search、RPN、anchor based等一系列生成方法的發(fā)展,到18年開始,開始流行anchor free系列,CornerNet算不上第一篇anchor free的論文,但anchor freee的流行卻是從CornerNet開始的,其中體現(xiàn)的一些思想仍值得學(xué)習(xí)。
看過公眾號以往論文解讀文章的讀者應(yīng)該能感覺到,以往論文解讀中會(huì)有不少我自己的話來表述,文章寫得也很簡練。但這篇論文的寫作實(shí)在很好,以至于這篇解讀文章幾乎就是對論文的翻譯,幾乎沒有改動(dòng)。
論文提出了 CornerNet,這是一種新的目標(biāo)檢測方法,我們使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)將對象邊界框檢測為一對關(guān)鍵點(diǎn),即左上角和右下角。 通過將對象檢測為成對的關(guān)鍵點(diǎn),我們無需設(shè)計(jì)一組在先前單級檢測器中常用的錨框。 除了我們的新范式外,我們還引入了corner pooling,這是一種新型的池化層,可幫助網(wǎng)絡(luò)更好地定位角點(diǎn)。
實(shí)驗(yàn)表明,CornerNet 在 MS COCO 上實(shí)現(xiàn)了 42.1% 的 AP,優(yōu)于所有現(xiàn)有的單級檢測器。
關(guān)注公眾號CV技術(shù)指南,及時(shí)獲取更多計(jì)算機(jī)視覺的內(nèi)容。
論文出發(fā)點(diǎn)|anchor box的缺陷
目標(biāo)檢測中SOTA模型中一個(gè)常見組成部分是錨框,它是各種大小和縱橫比的框,用作檢測候選框。Anchor box廣泛應(yīng)用于one-stage檢測器中,可以在效率更高的情況下獲得與two-stages檢測器極具競爭力的結(jié)果。one-stage檢測器將錨框密集地放置在圖像上,并通過對錨框進(jìn)行評分并通過回歸細(xì)化其坐標(biāo)來生成最終的框預(yù)測。
但是使用錨框有兩個(gè)缺點(diǎn)。
首先,我們通常需要一組非常大的錨框,例如 在 DSSD 中超過 40k,在 RetinaNet 中超過 100k。這是因?yàn)闄z測器被訓(xùn)練來對每個(gè)錨框是否與一個(gè)ground truth框充分重疊進(jìn)行分類,并且需要大量的anchor box來確保與大多數(shù)ground truth框有足夠的重疊。結(jié)果,只有一小部分錨框會(huì)與ground truth重疊; 這會(huì)造成正負(fù)錨框之間的巨大不平衡并減慢訓(xùn)練速度。
其次,錨框的使用引入了許多超參數(shù)和設(shè)計(jì)選擇。 這些包括多少個(gè)box、多大scale和多大aspect ratios。 這種選擇主要是通過臨時(shí)啟發(fā)式進(jìn)行的,當(dāng)與多尺度體系結(jié)構(gòu)相結(jié)合時(shí)會(huì)變得更加復(fù)雜,多尺度體系即單個(gè)網(wǎng)絡(luò)在多個(gè)分辨率下進(jìn)行單獨(dú)預(yù)測,每個(gè)尺度使用不同的特征和自己的一組錨框。
methods
受到 Newell 等人提出的關(guān)聯(lián)嵌入方法的啟發(fā)。誰在多人人體姿勢估計(jì)的背景下檢測和分組關(guān)鍵點(diǎn)。論文提出了 CornerNet,這是一種新的one-stage目標(biāo)檢測方法,無需錨框。
我們將一個(gè)對象檢測為一對關(guān)鍵點(diǎn)——邊界框的左上角和右下角。我們使用單個(gè)卷積網(wǎng)絡(luò)來預(yù)測同一對象類別的所有實(shí)例的左上角的熱圖、所有右下角的熱圖以及每個(gè)檢測到的角的嵌入向量。嵌入用于對屬于同一對象的一對角進(jìn)行分組——網(wǎng)絡(luò)經(jīng)過訓(xùn)練以預(yù)測它們的相似嵌入。
這種方法極大地簡化了網(wǎng)絡(luò)的輸出并消除了設(shè)計(jì)錨框的需要。
下圖說明了方法的整體流程
CornerNet 的另一個(gè)新穎組件是corner pooling,這是一種新型的池化層,可幫助卷積網(wǎng)絡(luò)更好地定位邊界框的角點(diǎn)。 邊界框的角通常在對象之外——考慮圓形的情況以及下面圖(中)示例。
在這種情況下,不能基于局部證據(jù)來定位角。 相反,要確定像素位置是否有左上角,我們需要水平向右看對象的最上邊界,垂直向下看最左邊界。 基于這一點(diǎn),我們提出了corner pooling。
它輸入兩個(gè)特征圖; 在每個(gè)像素位置,它最大池化第一個(gè)特征圖右側(cè)的所有特征向量,最大池化第二個(gè)特征圖正下方的所有特征向量,然后將兩個(gè)合并的結(jié)果加在一起。
我們假設(shè)檢測角點(diǎn)比邊界框中心或提案更有效的兩個(gè)原因。 首先,一個(gè)box的中心可能更難定位,因?yàn)樗Q于目標(biāo)的所有 4 個(gè)邊,而定位一個(gè)角取決于 2 個(gè)邊,因此更容易,對于corner pooling更是如此,它編碼了一些關(guān)于角的定義的明確的先驗(yàn)知識(shí)。 其次,角提供了一種更有效的方法來密集離散框的空間:我們只需要 O(wh) 個(gè)角來表示 O(wh)^2 個(gè)可能的錨框。
一些細(xì)節(jié)
整體實(shí)現(xiàn)
在 CornerNet 中,我們將一個(gè)對象檢測為一對關(guān)鍵點(diǎn)——邊界框的左上角和右下角。卷積網(wǎng)絡(luò)預(yù)測兩組熱圖來表示不同對象類別的角的位置,一組用于左上角,另一組用于右下角。每組熱圖都有C個(gè)通道,C為類別數(shù)量(不含背景),每個(gè)通道是關(guān)于一個(gè)類別角點(diǎn)位置的二進(jìn)制掩碼。
該網(wǎng)絡(luò)還為每個(gè)檢測到的角點(diǎn)預(yù)測一個(gè)嵌入向量,使得來自同一對象的兩個(gè)角點(diǎn)的嵌入之間的距離很小。 為了產(chǎn)生更緊密的邊界框,網(wǎng)絡(luò)還預(yù)測偏移量以稍微調(diào)整角的位置。 使用預(yù)測的熱圖、嵌入和偏移量,我們應(yīng)用一個(gè)簡單的后處理算法來獲得最終的邊界框。
使用沙漏網(wǎng)絡(luò)作為 CornerNet 的骨干網(wǎng)絡(luò)。沙漏網(wǎng)絡(luò)之后是兩個(gè)預(yù)測模塊。一個(gè)模塊用于左上角,而另一個(gè)用于右下角。每個(gè)模塊都有自己的corner pooling模塊,用于在預(yù)測熱圖、嵌入和偏移之前從沙漏網(wǎng)絡(luò)中池化特征。 與許多其他目標(biāo)檢測器不同,我們不使用不同尺度的特征來檢測不同尺寸的物體。 我們只將這兩個(gè)模塊應(yīng)用于沙漏網(wǎng)絡(luò)的輸出。
對于每個(gè)Corner,有一個(gè)ground truth正位置,所有其他位置都是負(fù)位置。 在訓(xùn)練期間,我們不是對負(fù)位置進(jìn)行同等懲罰,而是減少對正位置半徑內(nèi)的負(fù)位置的懲罰。 這是因?yàn)橐粚﹀e(cuò)誤的角點(diǎn)檢測,如果它們靠近各自的ground truth位置,仍然可以產(chǎn)生一個(gè)與ground truth框充分重疊的框。 我們通過對象的大小來確定半徑,方法是確保半徑內(nèi)的一對點(diǎn)將生成一個(gè)具有至少 t IoU 的邊界框,并帶有g(shù)round truth標(biāo)注。
Corners分組
使用“pull”損失訓(xùn)練網(wǎng)絡(luò)對角點(diǎn)進(jìn)行分組,使用“push”損失來分離角點(diǎn):
Corner Pooling
預(yù)測模塊
沙漏網(wǎng)絡(luò)
CornerNet 使用沙漏網(wǎng)絡(luò)作為其骨干網(wǎng)絡(luò)。沙漏網(wǎng)絡(luò)首先被引入用于人體姿勢估計(jì)任務(wù)。它是一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò),由一個(gè)或多個(gè)沙漏模塊組成。沙漏模塊首先通過一系列卷積和最大池化層對輸入特征進(jìn)行下采樣。然后通過一系列上采樣和卷積層將特征上采樣回原始分辨率。由于最大池化層中的細(xì)節(jié)丟失,因此添加了跳過層以將細(xì)節(jié)帶回上采樣特征。沙漏模塊在單個(gè)統(tǒng)一結(jié)構(gòu)中捕獲全局和局部特征。當(dāng)多個(gè)沙漏模塊堆疊在網(wǎng)絡(luò)中時(shí),沙漏模塊可以重新處理特征以捕獲更高級別的信息。這些特性也使沙漏網(wǎng)絡(luò)成為目標(biāo)檢測的理想選擇。事實(shí)上,目前很多檢測器已經(jīng)采用了類似于沙漏網(wǎng)絡(luò)的網(wǎng)絡(luò)。
結(jié)論
實(shí)驗(yàn)表明,CornerNet 在 MS COCO 上實(shí)現(xiàn)了 42.1% 的 AP,優(yōu)于所有現(xiàn)有的單級檢測器。
Corner Pooling的消融實(shí)驗(yàn)
本文來源于公眾號 CV技術(shù)指南 的論文分享系列。
歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 5 機(jī)器人9月大事件|3家國產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 6 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 7 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 8 美光:AI Capex瘋投不止,終于要拉起存儲(chǔ)超級周期了?
- 9 華為已殺入!AI領(lǐng)域最熱黃金賽道,大廠的數(shù)字人美女讓我一夜沒睡著覺
- 10 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回