南京大學(xué)提出基于關(guān)鍵幀移動(dòng)點(diǎn)法實(shí)現(xiàn)行為動(dòng)作流管檢測(cè)
From:Arxiv 編譯:T.R
時(shí)空行為檢測(cè)是計(jì)算視覺(jué)領(lǐng)域重要的研究方向,在安防監(jiān)控、視頻標(biāo)注、運(yùn)動(dòng)分析等方面具有重要的應(yīng)用。現(xiàn)存的行為動(dòng)作流檢測(cè)方法大多針對(duì)獨(dú)立幀進(jìn)行檢測(cè),而后進(jìn)行幀間運(yùn)動(dòng)銜接,雖然有基于片段的短時(shí)行為檢測(cè),但卻在檢測(cè)精度、計(jì)算資源消耗和穩(wěn)定性上還面臨著一系列問(wèn)題。
為了實(shí)現(xiàn)更加準(zhǔn)確高效的視頻行為檢測(cè),來(lái)自南京大學(xué)的研究人員提出了一種移動(dòng)中心檢測(cè)器(moving center detector)的架構(gòu),通過(guò)將行為實(shí)例轉(zhuǎn)化為運(yùn)動(dòng)點(diǎn)軌跡來(lái)簡(jiǎn)化運(yùn)動(dòng)信息并輔助行為流管檢測(cè)(action tubelet detection),在運(yùn)動(dòng)實(shí)例中心幀檢測(cè)與分類、相鄰幀運(yùn)動(dòng)偏移估計(jì)以及目標(biāo)實(shí)例檢測(cè)框回歸的共同努力下實(shí)現(xiàn)了可達(dá)25fps的高效行為流管檢測(cè),同時(shí)保證了長(zhǎng)時(shí)間視頻級(jí)行為檢測(cè)的流管融合精度,在幀級(jí)和視頻級(jí)任務(wù)上都取得了優(yōu)異的mAP結(jié)果。
基于運(yùn)動(dòng)點(diǎn)的行為檢測(cè)
這一工作的主要目標(biāo)在對(duì)短視頻幀序列進(jìn)行行為流管(action tubelt,ACT)檢測(cè)。視頻中實(shí)例的運(yùn)動(dòng)信息天然地描述了人類的運(yùn)動(dòng)行為,所以每一個(gè)動(dòng)作行為實(shí)例可以被描述為一系列運(yùn)動(dòng)點(diǎn)的軌跡,同時(shí)也可以基于軌跡來(lái)實(shí)現(xiàn)行為分類。在這樣獨(dú)特的視角下,研究人員將ACT表示為短視頻幀序列中關(guān)鍵幀中心點(diǎn),以及相鄰幀中實(shí)例中心相對(duì)于其中心點(diǎn)的偏移量。
為了實(shí)現(xiàn)有效的行為管道檢測(cè),研究人員將整個(gè)任務(wù)分解為了三個(gè)相對(duì)簡(jiǎn)單的子任務(wù),包括定位關(guān)鍵幀中的目標(biāo)中心點(diǎn)、估計(jì)相鄰幀中實(shí)例相對(duì)于中心點(diǎn)的位移,并在每一幀計(jì)算出的新中心點(diǎn)周圍實(shí)現(xiàn)實(shí)例包圍框的回歸計(jì)算。解耦后的框架不僅更為緊致,優(yōu)化也更為容易,同時(shí)也提高了檢測(cè)的精度與效率。
模型架構(gòu)主要分為四個(gè)部分,短視頻片段幀被送入主干網(wǎng)絡(luò)進(jìn)行特征抽取,而后將特征分別送入三個(gè)子任務(wù)分支進(jìn)行處理。其中中心分支用于檢測(cè)關(guān)鍵幀中的動(dòng)作中心點(diǎn)和動(dòng)作分類;移動(dòng)分支針對(duì)所有幀檢測(cè)動(dòng)作相對(duì)于其中心點(diǎn)的偏移量;bbox分支則用于為每一幀預(yù)測(cè)相對(duì)于其動(dòng)作中心的實(shí)例包圍框。這種設(shè)計(jì)使得三個(gè)子任務(wù)可以有效協(xié)作生成ACT檢測(cè)結(jié)果。最終通過(guò)將這些ACT結(jié)果進(jìn)行銜接可以得到視頻級(jí)別的長(zhǎng)程行為檢測(cè)結(jié)果。
MOC-detector
模型的第一部分是從輸入視頻序列中抽取特征的主干網(wǎng)絡(luò)。其中輸入為K幅WxH大小的幀,輸出為W/rxH/rxKx64的特征,r為空間下采樣率。為了保障輸入序列的時(shí)序結(jié)構(gòu)在時(shí)間維度上保持了原來(lái)的幀數(shù)。在對(duì)比了多種網(wǎng)絡(luò)后,基于精度與效率的權(quán)衡研究人員選擇了DLA-34作為抽取特征的主干網(wǎng)絡(luò)。這一架構(gòu)采用了編碼器-解碼器架構(gòu)來(lái)從每一幀中獨(dú)立地抽取特征,并在空間上進(jìn)行4倍的下采樣,抽取的特征被后續(xù)三個(gè)分支共享。
中心預(yù)測(cè)分支
中心預(yù)測(cè)分支的主要目的在于從中央關(guān)鍵幀預(yù)測(cè)出行為流管的中心,并識(shí)別出行為的分類。為了從關(guān)鍵幀中檢測(cè)出行為實(shí)例的中心,需要中心分支有效地抽取時(shí)域信息來(lái)進(jìn)行動(dòng)作識(shí)別。所以這一部分主要由時(shí)域模塊構(gòu)成來(lái)估計(jì)動(dòng)作中心。基于W/r×H/r×K×64的視頻特征估計(jì)出W/r×H/r×C的中心熱力圖L? ,其中C代表了行為類別的數(shù)目,L? 值代表了在(x, y)位置檢測(cè)到某種行為實(shí)例的似然大小,更高的值意味著更大的可能性。為了有效的捕捉時(shí)域結(jié)構(gòu),研究人員使用了3D全卷積操作和sigmoid非線性激活來(lái)估計(jì)中心熱力圖。
位移估計(jì)分支
模型的第二部分將針對(duì)所有幀,聯(lián)系相鄰幀與關(guān)鍵幀來(lái)估計(jì)出相對(duì)于中心的偏移。首先需要將中央關(guān)鍵幀的中心點(diǎn)平移到所有相鄰幀中,而后估計(jì)出相鄰幀中實(shí)例中心相對(duì)于關(guān)鍵幀中心的偏移。位移分支同樣利用了時(shí)域信息來(lái)估計(jì)出中心點(diǎn)的偏移量,其輸入特征為共享的W/r×H/r×K×64的視頻特征,輸出位移預(yù)測(cè)圖M為W/r×H/r×2K,其中2K代表了K幀上中心分別在x,y方向上的位移。在給定關(guān)鍵幀中心(xkey,ykey)的情況下,Mxkey,ykey,2j:2j+2 編碼了從關(guān)鍵幀到第j幀的中心位移。
為了有效地捕捉動(dòng)作中心的移動(dòng),研究人員提出了三種不同的實(shí)現(xiàn)方法。一種是基于累積移動(dòng)策略來(lái)連續(xù)地預(yù)測(cè)相鄰幀間的位移而不是相對(duì)于關(guān)鍵幀的位移,但這種方法在預(yù)測(cè)的時(shí)候會(huì)帶來(lái)累積誤差影響精度。第二種方法是基于代價(jià)空間估計(jì)中心位移,通過(guò)構(gòu)建當(dāng)前幀與關(guān)鍵幀的代價(jià)空間直接計(jì)算中心位移,但代價(jià)空間的構(gòu)建是的這種方法的精度和速度都沒(méi)有太好的表現(xiàn);第三種方法就是本文中使用的中心移動(dòng)法,通過(guò)利用三維卷積操作來(lái)直接回歸出當(dāng)前幀與關(guān)鍵幀之間的中心位移,這種策略雖然簡(jiǎn)單但是在實(shí)驗(yàn)中卻得到了良好的精度和計(jì)算效率。
bbox估計(jì)
包圍框估計(jì)分支主要基于每一幀計(jì)算出的中心點(diǎn),聚焦于幀的空間信息來(lái)對(duì)其中的動(dòng)作實(shí)例進(jìn)行檢測(cè),并回歸出包圍框的長(zhǎng)寬。包圍框分支是行為流管檢測(cè)的最后一步,主要集中于對(duì)于行為實(shí)例空間信息的分析。與先前兩個(gè)部分不同的是,這一部分假設(shè)bbox 檢測(cè)只依賴于當(dāng)前幀的信息。
研究發(fā)現(xiàn)時(shí)域信息無(wú)助于與分類無(wú)關(guān)bbox的回歸結(jié)果,而只會(huì)帶來(lái)而外的計(jì)算負(fù)擔(dān)。這一分支針對(duì)每一幀進(jìn)行bbox估計(jì),直接估計(jì)出框的大小和形狀預(yù)測(cè)圖S? ∈ W/r×H/r×K×2,其值定義了在第j幀中的對(duì)應(yīng)位置中心位于(x, y)bbox的大小。
行為管道銜接
在通過(guò)MOC檢測(cè)器得到了短序列片段的結(jié)果后,就可以實(shí)現(xiàn)長(zhǎng)程視頻級(jí)行為流管的檢測(cè)了。雖然可以改變k來(lái)適應(yīng)長(zhǎng)程多幀的視頻,但由于GPU的顯存限制是的K的最大幀數(shù)不能超過(guò)10,在對(duì)視頻片段進(jìn)行檢測(cè)后需要利用銜接銜接算法將不同片段間的動(dòng)作微管(tubelet)進(jìn)行融合實(shí)現(xiàn)視頻級(jí)行為管道(tube)檢測(cè)。
在融合過(guò)程中使用了與先前方法相同的銜接算法(linking algorithm),并通過(guò)初試步驟的非極大值抑制、融合步驟的有條件銜接、終止步驟的判斷來(lái)實(shí)現(xiàn)視頻級(jí)別的行為管道檢測(cè)。這一銜接算法與ACTdetection中的算法相同。附注 ACT-detecitor;Action Tubelet Detector for Spatio-Temporal Action Localization
實(shí)驗(yàn)結(jié)果
在構(gòu)建好整套行為管道檢測(cè)體系后,研究人員在兩個(gè)較為常用的動(dòng)作行為數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試,主要包括了UCF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集的子集。他們還提出了幀級(jí)別的AP和視頻級(jí)別的AP指標(biāo)進(jìn)行比較,其中幀級(jí)別與銜接算法獨(dú)立,注重bbox的回歸精度,而視頻級(jí)別與所有幀相關(guān)并與銜接算法緊密聯(lián)系。而后通過(guò)定量和定性的分析對(duì)MOC檢測(cè)器中各個(gè)部分和每個(gè)分支的性能進(jìn)行了有效的消融性分析。
研究人員首先對(duì)比了三種不同行為微管檢測(cè)的策略,分別是
無(wú)位移(no movement)
包圍框位移(box movement)
中心平移(center movement,MOC)
其中無(wú)位移的策略假設(shè)主體在局域幀內(nèi)的中心位移相較于動(dòng)作幅度來(lái)說(shuō)很小,它直接去掉了位移分支,直接為每一幀基于關(guān)鍵幀中心生成bbox,所有的bbox共享相同的中心僅僅尺寸不同。
包圍框進(jìn)行位移的策略假設(shè)bbox的尺寸對(duì)中心點(diǎn)位置不敏感,它首先基于關(guān)鍵幀中心點(diǎn)回歸出bbox,而后再根據(jù)位移分支的預(yù)測(cè)結(jié)果對(duì)每一幀bbox進(jìn)行移動(dòng)。
MOC策略則是本文中所采用的方法,它認(rèn)為目標(biāo)的中心是會(huì)變化的,中心的變化也會(huì)帶來(lái)bbox尺寸的變化。利用位移分支的預(yù)測(cè)結(jié)果將每一幀的中心點(diǎn)從關(guān)鍵幀中心移動(dòng)到自身的動(dòng)作中心點(diǎn)上來(lái),而后基于自身的中心來(lái)計(jì)算bbox。它與包圍框移動(dòng)策略不同在于它們基于不同的中心點(diǎn)生成bbox,中心點(diǎn)方法基于當(dāng)前幀中心生成而包圍框方法則基于關(guān)鍵幀中心生成。
下圖顯示了三種策略的檢測(cè)結(jié)果,可以看到無(wú)位移策略的bbox為了包圍整個(gè)目標(biāo)其尺寸更大,而通過(guò)調(diào)整每一幀中心點(diǎn)的位置和尺寸則有效地提高了非關(guān)鍵幀目標(biāo)的檢測(cè)精度。下圖顯示了MOC方法檢測(cè)出的bbox其IoU更高,針對(duì)較遠(yuǎn)的非關(guān)鍵幀移動(dòng)策略的優(yōu)勢(shì)更為明顯。
下表中同時(shí)顯示了包圍框移動(dòng)策略和中心移動(dòng)策略的差異,MOC方法能夠更有效地適應(yīng)運(yùn)動(dòng)目標(biāo)的檢測(cè)。
此外還分析了位移分支的不同設(shè)計(jì)策略,包括基于關(guān)鍵幀的累積位移策略,基于代價(jià)空間的移動(dòng)策略,基于中心的移動(dòng)策略。下表顯示了三種方式的結(jié)果。
可以看到由于累積誤差的影響,累積位移策略表現(xiàn)較差;同時(shí)由于代價(jià)空間計(jì)算僅僅依賴于當(dāng)前幀與關(guān)鍵幀的相關(guān)性圖,而確實(shí)了整個(gè)序列的信息造成了精度下降,此外代價(jià)空間的計(jì)算只包含了相關(guān)性而無(wú)額外參數(shù)使得其收斂較為困難,所以這兩種方式都弱于中心位移的策略。
為了得到最佳的輸入序列長(zhǎng)度,研究人員比較了K=1-9的輸出長(zhǎng)度,通過(guò)權(quán)衡速度與精度決定使用k=7作為輸入序列的長(zhǎng)度,并可以實(shí)現(xiàn)25fps的預(yù)測(cè)速度。
最終研究人員將本方法與目前最先進(jìn)的檢測(cè)方法在兩個(gè)數(shù)據(jù)集上進(jìn)行了比較,結(jié)果顯示本方法在視頻級(jí)和幀級(jí)的mAP都明顯超越了先前的方法:
最后研究人員還對(duì)本方法的檢測(cè)有效性進(jìn)行了可視化,可以看到K=7時(shí)可更有效的檢測(cè)出目標(biāo),漏檢率更低;同時(shí)基于微行為管的檢測(cè)使得分類誤差也較。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來(lái)的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
-
9 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 8 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 10 美光:AI Capex瘋投不止,終于要拉起存儲(chǔ)超級(jí)周期了?
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)