123,123,123

南京大學(xué)提出基于關(guān)鍵幀移動點法實現(xiàn)行為動作流管檢測

2020-03-06 10:17

From：Arxiv 編譯：T．R

時空行為檢測是計算視覺領(lǐng)域重要的研究方向，在安防監(jiān)控、視頻標注、運動分析等方面具有重要的應(yīng)用�，F(xiàn)存的行為動作流檢測方法大多針對獨立幀進行檢測，而后進行幀間運動銜接，雖然有基于片段的短時行為檢測，但卻在檢測精度、計算資源消耗和穩(wěn)定性上還面臨著一系列問題。

為了實現(xiàn)更加準確高效的視頻行為檢測，來自南京大學(xué)的研究人員提出了一種移動中心檢測器（moving center detector）的架構(gòu)，通過將行為實例轉(zhuǎn)化為運動點軌跡來簡化運動信息并輔助行為流管檢測（action tubelet detection），在運動實例中心幀檢測與分類、相鄰幀運動偏移估計以及目標實例檢測框回歸的共同努力下實現(xiàn)了可達25fps的高效行為流管檢測，同時保證了長時間視頻級行為檢測的流管融合精度，在幀級和視頻級任務(wù)上都取得了優(yōu)異的mAP結(jié)果。

基于運動點的行為檢測

這一工作的主要目標在對短視頻幀序列進行行為流管（action tubelt，ACT）檢測。視頻中實例的運動信息天然地描述了人類的運動行為，所以每一個動作行為實例可以被描述為一系列運動點的軌跡，同時也可以基于軌跡來實現(xiàn)行為分類。在這樣獨特的視角下，研究人員將ACT表示為短視頻幀序列中關(guān)鍵幀中心點，以及相鄰幀中實例中心相對于其中心點的偏移量。

為了實現(xiàn)有效的行為管道檢測，研究人員將整個任務(wù)分解為了三個相對簡單的子任務(wù)，包括定位關(guān)鍵幀中的目標中心點、估計相鄰幀中實例相對于中心點的位移，并在每一幀計算出的新中心點周圍實現(xiàn)實例包圍框的回歸計算。解耦后的框架不僅更為緊致，優(yōu)化也更為容易，同時也提高了檢測的精度與效率。

模型架構(gòu)主要分為四個部分，短視頻片段幀被送入主干網(wǎng)絡(luò)進行特征抽取，而后將特征分別送入三個子任務(wù)分支進行處理。其中中心分支用于檢測關(guān)鍵幀中的動作中心點和動作分類；移動分支針對所有幀檢測動作相對于其中心點的偏移量；bbox分支則用于為每一幀預(yù)測相對于其動作中心的實例包圍框。這種設(shè)計使得三個子任務(wù)可以有效協(xié)作生成ACT檢測結(jié)果。最終通過將這些ACT結(jié)果進行銜接可以得到視頻級別的長程行為檢測結(jié)果。

MOC－detector

模型的第一部分是從輸入視頻序列中抽取特征的主干網(wǎng)絡(luò)。其中輸入為K幅WxH大小的幀，輸出為W／rxH／rxKx64的特征，r為空間下采樣率。為了保障輸入序列的時序結(jié)構(gòu)在時間維度上保持了原來的幀數(shù)。在對比了多種網(wǎng)絡(luò)后，基于精度與效率的權(quán)衡研究人員選擇了DLA－34作為抽取特征的主干網(wǎng)絡(luò)。這一架構(gòu)采用了編碼器－解碼器架構(gòu)來從每一幀中獨立地抽取特征，并在空間上進行4倍的下采樣，抽取的特征被后續(xù)三個分支共享。

中心預(yù)測分支

中心預(yù)測分支的主要目的在于從中央關(guān)鍵幀預(yù)測出行為流管的中心，并識別出行為的分類。為了從關(guān)鍵幀中檢測出行為實例的中心，需要中心分支有效地抽取時域信息來進行動作識別。所以這一部分主要由時域模塊構(gòu)成來估計動作中心�；赪／r×H／r×K×64的視頻特征估計出W／r×H／r×C的中心熱力圖L？，其中C代表了行為類別的數(shù)目，L？值代表了在（x， y）位置檢測到某種行為實例的似然大小，更高的值意味著更大的可能性。為了有效的捕捉時域結(jié)構(gòu)，研究人員使用了3D全卷積操作和sigmoid非線性激活來估計中心熱力圖。

位移估計分支

模型的第二部分將針對所有幀，聯(lián)系相鄰幀與關(guān)鍵幀來估計出相對于中心的偏移。首先需要將中央關(guān)鍵幀的中心點平移到所有相鄰幀中，而后估計出相鄰幀中實例中心相對于關(guān)鍵幀中心的偏移。位移分支同樣利用了時域信息來估計出中心點的偏移量，其輸入特征為共享的W／r×H／r×K×64的視頻特征，輸出位移預(yù)測圖M為W／r×H／r×2K，其中2K代表了K幀上中心分別在x，y方向上的位移。在給定關(guān)鍵幀中心（xkey，ykey）的情況下，Mxkey，ykey，2j：2j＋2 編碼了從關(guān)鍵幀到第j幀的中心位移。

為了有效地捕捉動作中心的移動，研究人員提出了三種不同的實現(xiàn)方法。一種是基于累積移動策略來連續(xù)地預(yù)測相鄰幀間的位移而不是相對于關(guān)鍵幀的位移，但這種方法在預(yù)測的時候會帶來累積誤差影響精度。第二種方法是基于代價空間估計中心位移，通過構(gòu)建當前幀與關(guān)鍵幀的代價空間直接計算中心位移，但代價空間的構(gòu)建是的這種方法的精度和速度都沒有太好的表現(xiàn)；第三種方法就是本文中使用的中心移動法，通過利用三維卷積操作來直接回歸出當前幀與關(guān)鍵幀之間的中心位移，這種策略雖然簡單但是在實驗中卻得到了良好的精度和計算效率。

bbox估計

包圍框估計分支主要基于每一幀計算出的中心點，聚焦于幀的空間信息來對其中的動作實例進行檢測，并回歸出包圍框的長寬。包圍框分支是行為流管檢測的最后一步，主要集中于對于行為實例空間信息的分析。與先前兩個部分不同的是，這一部分假設(shè)bbox 檢測只依賴于當前幀的信息。

研究發(fā)現(xiàn)時域信息無助于與分類無關(guān)bbox的回歸結(jié)果，而只會帶來而外的計算負擔。這一分支針對每一幀進行bbox估計，直接估計出框的大小和形狀預(yù)測圖S？ ∈ W／r×H／r×K×2，其值定義了在第j幀中的對應(yīng)位置中心位于（x， y）bbox的大小。

行為管道銜接

在通過MOC檢測器得到了短序列片段的結(jié)果后，就可以實現(xiàn)長程視頻級行為流管的檢測了。雖然可以改變k來適應(yīng)長程多幀的視頻，但由于GPU的顯存限制是的K的最大幀數(shù)不能超過10，在對視頻片段進行檢測后需要利用銜接銜接算法將不同片段間的動作微管（tubelet）進行融合實現(xiàn)視頻級行為管道（tube）檢測。

在融合過程中使用了與先前方法相同的銜接算法（linking algorithm），并通過初試步驟的非極大值抑制、融合步驟的有條件銜接、終止步驟的判斷來實現(xiàn)視頻級別的行為管道檢測。這一銜接算法與ACTdetection中的算法相同。附注 ACT－detecitor；Action Tubelet Detector for Spatio－Temporal Action Localization

實驗結(jié)果

在構(gòu)建好整套行為管道檢測體系后，研究人員在兩個較為常用的動作行為數(shù)據(jù)集上進行了訓(xùn)練和測試，主要包括了UCF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集的子集。他們還提出了幀級別的AP和視頻級別的AP指標進行比較，其中幀級別與銜接算法獨立，注重bbox的回歸精度，而視頻級別與所有幀相關(guān)并與銜接算法緊密聯(lián)系。而后通過定量和定性的分析對MOC檢測器中各個部分和每個分支的性能進行了有效的消融性分析。

研究人員首先對比了三種不同行為微管檢測的策略，分別是

無位移（no movement）

包圍框位移（box movement）

中心平移（center movement，MOC）

其中無位移的策略假設(shè)主體在局域幀內(nèi)的中心位移相較于動作幅度來說很小，它直接去掉了位移分支，直接為每一幀基于關(guān)鍵幀中心生成bbox，所有的bbox共享相同的中心僅僅尺寸不同。

包圍框進行位移的策略假設(shè)bbox的尺寸對中心點位置不敏感，它首先基于關(guān)鍵幀中心點回歸出bbox，而后再根據(jù)位移分支的預(yù)測結(jié)果對每一幀bbox進行移動。

MOC策略則是本文中所采用的方法，它認為目標的中心是會變化的，中心的變化也會帶來bbox尺寸的變化。利用位移分支的預(yù)測結(jié)果將每一幀的中心點從關(guān)鍵幀中心移動到自身的動作中心點上來，而后基于自身的中心來計算bbox。它與包圍框移動策略不同在于它們基于不同的中心點生成bbox，中心點方法基于當前幀中心生成而包圍框方法則基于關(guān)鍵幀中心生成。

下圖顯示了三種策略的檢測結(jié)果，可以看到無位移策略的bbox為了包圍整個目標其尺寸更大，而通過調(diào)整每一幀中心點的位置和尺寸則有效地提高了非關(guān)鍵幀目標的檢測精度。下圖顯示了MOC方法檢測出的bbox其IoU更高，針對較遠的非關(guān)鍵幀移動策略的優(yōu)勢更為明顯。

下表中同時顯示了包圍框移動策略和中心移動策略的差異，MOC方法能夠更有效地適應(yīng)運動目標的檢測。

此外還分析了位移分支的不同設(shè)計策略，包括基于關(guān)鍵幀的累積位移策略，基于代價空間的移動策略，基于中心的移動策略。下表顯示了三種方式的結(jié)果。

可以看到由于累積誤差的影響，累積位移策略表現(xiàn)較差；同時由于代價空間計算僅僅依賴于當前幀與關(guān)鍵幀的相關(guān)性圖，而確實了整個序列的信息造成了精度下降，此外代價空間的計算只包含了相關(guān)性而無額外參數(shù)使得其收斂較為困難，所以這兩種方式都弱于中心位移的策略。

為了得到最佳的輸入序列長度，研究人員比較了K＝1－9的輸出長度，通過權(quán)衡速度與精度決定使用k＝7作為輸入序列的長度，并可以實現(xiàn)25fps的預(yù)測速度。