深蘭科技|目標(biāo)檢測二十年間的那些事兒
(2) HOG 檢測器
方向梯度直方圖(HOG)特征描述器最初是由N. Dalal和B.Triggs在2005年提出的[11]。HOG對當(dāng)時的尺度不變特征變換(scale-invariant feature transform)和形狀語境(shape contexts)做出重要改進(jìn)。為了平衡特征不變性 ( 包括平移、尺度、光照等 ) 和非線性 ( 區(qū)分不同對象類別 ),HOG描述器被設(shè)計(jì)為在密集的均勻間隔單元網(wǎng)格(稱為一個“區(qū)塊”)上計(jì)算,并使用重疊局部對比度歸一化方法來提高精度。雖然HOG可以用來檢測各種對象類,但它的主要目標(biāo)是行人檢測問題。如若要檢測不同大小的對象,則要讓HOG檢測器在保持檢測窗口大小不變的情況下,對輸入圖像進(jìn)行多次重設(shè)尺寸(rescale)。這么多年來,HOG檢測器一直是許多目標(biāo)檢測器和各種計(jì)算機(jī)視覺應(yīng)用的重要基礎(chǔ)。
方向梯度直方圖(HOG),計(jì)算出每個像素朝四周的梯度方向和梯度強(qiáng)度,并統(tǒng)計(jì)形成梯度直方圖
(3) 基于可變形部件的模型(DPM)
DPM作為voco -07、-08、-09屆檢測挑戰(zhàn)賽的優(yōu)勝者,它曾是傳統(tǒng)目標(biāo)檢測方法的巔峰。DPM最初是由P. Felzenszwalb提出的[12],于2008年作為HOG檢測器的擴(kuò)展,之后R. Girshick進(jìn)行了各種改進(jìn)[13][14]。
DPM遵循“分而治之”的檢測思想,訓(xùn)練可以簡單地看作是學(xué)習(xí)一種正確的分解對象的方法,推理可以看作是對不同對象部件的檢測的集合。例如,檢測“汽車”的問題可以看作是檢測它的窗口、車身和車輪。工作的這一部分,也就是“star model”由P.Felzenszwalb等人完成。后來,R. Girshick進(jìn)一步將star model擴(kuò)展到 “ 混合模型 ”,以處理更顯著變化下的現(xiàn)實(shí)世界中的物體。
一個典型的DPM檢測器由一個根過濾器(root-filter)和一些零件濾波器(part-filters)組成。該方法不需要手動設(shè)定零件濾波器的配置(如尺寸和位置),而是在開發(fā)了一種弱監(jiān)督學(xué)習(xí)方法并使用到了DPM中,所有零件濾波器的配置都可以作為潛在變量自動學(xué)習(xí)。R. Girshick將這個過程進(jìn)一步表述為一個多實(shí)例學(xué)習(xí)的特殊案例,同時還應(yīng)用了“困難負(fù)樣本挖掘(hard-negative mining)”、“邊界框回歸”、“語境啟動”等重要技術(shù)以提高檢測精度。而為了加快檢測速度,Girshick開發(fā)了一種技術(shù),將檢測模型“ 編譯 ”成一個更快的模型,實(shí)現(xiàn)了級聯(lián)結(jié)構(gòu),在不犧牲任何精度的情況下實(shí)現(xiàn)了超過10倍的加速。
雖然今天的目標(biāo)探測器在檢測精度方面已經(jīng)遠(yuǎn)遠(yuǎn)超過了DPM,但仍然受到DPM的許多有價值的見解的影響,如混合模型、困難負(fù)樣本挖掘、邊界框回歸等。2010年,P. Felzenszwalb和R. Girshick被授予PASCAL VOC的 “終身成就獎”。
基于卷積神經(jīng)網(wǎng)絡(luò)的雙級檢測器
隨著手動選取特征技術(shù)的性能趨于飽和,目標(biāo)檢測在2010年之后達(dá)到了一個平穩(wěn)的發(fā)展期。2012年,卷積神經(jīng)網(wǎng)絡(luò)在世界范圍內(nèi)重新煥發(fā)生機(jī)[15]。由于深卷積網(wǎng)絡(luò)能夠?qū)W習(xí)圖像的魯棒性和高層次特征表示,一個自然而然的問題是:我們能否將其應(yīng)用到目標(biāo)檢測中?R. Girshick等人在2014年率先打破僵局,提出了具有CNN特征的區(qū)域(RCNN)用于目標(biāo)檢測[16]。從那時起,目標(biāo)檢測開始以前所未有的速度發(fā)展。在深度學(xué)習(xí)時代,目標(biāo)檢測可以分為兩類:“雙級檢測(two-stage detection)” 和 “單級檢測(one-stage detection)”,前者將檢測框定為一個“從粗到細(xì) ”的過程,而后者將其定義為“一步到位”。
雙級檢測的發(fā)展及各類檢測器的結(jié)構(gòu)[2]
(1) RCNN
RCNN[17]的思路很簡單:它首先通過選擇性搜索來提取一組對象作為“提案(proposal)”并當(dāng)做對象的候選框。然后將每個提案重新調(diào)整成一個固定大小的圖像,再輸入到一個在ImageNet上訓(xùn)練得到的CNN模型(如AlexNet) 來提取特征。最后,利用線性SVM分類器對每個區(qū)域內(nèi)的目標(biāo)進(jìn)行預(yù)測,識別目標(biāo)類別。RCNN在VOC07測試集上有明顯的性能提升,平均精準(zhǔn)度 (mean Average Precision,mAP) 從33.7%(DPM-v5) 大幅提高到58.5%。
雖然RCNN已經(jīng)取得了很大的進(jìn)步,但它的缺點(diǎn)是顯而易見的:需要在大量重疊的提案上進(jìn)行冗余的特征計(jì)算 (一張圖片超過2000個框),導(dǎo)致檢測速度極慢(使用GPU時每張圖片耗時14秒)。同年晚些時候,有人提出了SPPNet并克服了這個問題。
(2) SPPNet
2014年,K. He等人提出了空間金字塔池化網(wǎng)絡(luò)( Spatial Pyramid Pooling Networks,SPPNet)[18]。以前的CNN模型需要固定大小的輸入,例如AlexNet需要224x224圖像。SPPNet的主要貢獻(xiàn)是引入了空間金字塔池化(SPP)層,它使CNN能夠生成固定長度的表示,而不需要重新調(diào)節(jié)有意義圖像的尺寸。利用SPPNet進(jìn)行目標(biāo)檢測時,只對整個圖像進(jìn)行一次特征映射計(jì)算,然后生成任意區(qū)域的定長表示以訓(xùn)練檢測器,避免了卷積特征的重復(fù)計(jì)算。SPPNet的速度是R-CNN的20多倍,并且沒有犧牲任何檢測精度(VOC07 mAP=59.2%)。
SPPNet雖然有效地提高了檢測速度,但仍然存在一些不足:第一,訓(xùn)練仍然是多階段的,第二,SPPNet只對其全連接層進(jìn)行微調(diào),而忽略了之前的所有層。而次年晚些時候出現(xiàn)Fast RCNN并解決了這些問題。

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會深圳站
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報(bào)名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 8 L3自動駕駛延期,逼出車企技術(shù)自我淘汰
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 10 機(jī)器人9月大事件|3家國產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動化高級工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)