頂會(huì)競(jìng)賽最后5天被Facebook超越,又大比分反超奪冠是什么體驗(yàn)?
一種簡(jiǎn)單的利用方式是將Mega Detector預(yù)測(cè)的BBox 裁剪出來(lái),同原圖一起送給網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這樣可以有效環(huán)節(jié)ROI 尺寸過(guò)小的問(wèn)題。 不過(guò)這種方案的缺陷在于,如此訓(xùn)練分類網(wǎng)絡(luò),會(huì)使得網(wǎng)絡(luò)獲得兩個(gè)scale完全不同的輸入,一個(gè)是原圖,一個(gè)是BBox裁剪出的圖像,這會(huì)對(duì)分類網(wǎng)絡(luò)學(xué)習(xí)特征帶來(lái)一定的干擾。
為此,團(tuán)隊(duì)修改了策略,同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò)。分別輸入原始圖像,和Mega detector裁剪出的置信度最高的bbox圖像。 在預(yù)測(cè)階段,再將網(wǎng)絡(luò)的輸出進(jìn)行Ensemble,從而可以同時(shí)捕捉到原圖全局的信息和BBox中前景的信息。 挑戰(zhàn)二:不同背景造成的問(wèn)題 除過(guò)ROI 儲(chǔ)存過(guò)小之外,另一個(gè)問(wèn)題是訓(xùn)練集的camera trap 取景位置和測(cè)試集的camera trap 不相交所導(dǎo)致的背景差異問(wèn)題。
訓(xùn)練集圖片均來(lái)自于藍(lán)色點(diǎn)表示的區(qū)域,它和紅色區(qū)域沒有相交。 因此這會(huì)造成domain shift的問(wèn)題。即在訓(xùn)練地表現(xiàn)好的模型并不一定也會(huì)在test地有同樣表現(xiàn)。因?yàn)槟P陀锌赡軐W(xué)到一些和location相關(guān)的信息,而它們不是可以用于分類動(dòng)物的通用信息。 此外,與正常的domain adaptation不同,iWildCam 的訓(xùn)練集包括很多不同domain(如果將每個(gè)camera trap地點(diǎn)作為一個(gè)domain,則訓(xùn)練集包含441個(gè),而測(cè)試集包含111個(gè))。 因此,如果能利用訓(xùn)練集中的位置標(biāo)注來(lái)幫助網(wǎng)絡(luò)學(xué)習(xí)location invariant的特征,那么網(wǎng)絡(luò)就可捕捉更多與位置無(wú)關(guān)而和分類相關(guān)的信息。 對(duì)此,domain adaptation領(lǐng)域非常著名的論文Unsupervised domain adaption by backpropagation為團(tuán)隊(duì)提供了啟發(fā)。
如上圖首先可以假設(shè),如果在原來(lái)的2048維上加一個(gè)額外位置(location)的classifier,那么網(wǎng)絡(luò)提取的特征就會(huì)傾向于將不同location的特征相互推遠(yuǎn)。如上方右圖所示(不同形狀表示不同類別,不同顏色表示不同),雖然每個(gè)類別的特征之間有分類的可分性約束,但是location之間的相互排斥也會(huì)導(dǎo)致一些location圖片的特征被推到一個(gè)不太有利于分類的局面,從而導(dǎo)致網(wǎng)絡(luò)學(xué)到的特征并不能實(shí)現(xiàn)location invariant,從而在測(cè)試集上表現(xiàn)欠佳。 對(duì)此,文章提出一個(gè)非常簡(jiǎn)單的梯度翻轉(zhuǎn)的技巧來(lái)實(shí)現(xiàn)location invariant。
如上方左圖所示,在梯度反傳經(jīng)過(guò)location classifier時(shí)將梯度乘-1,從而實(shí)現(xiàn)翻轉(zhuǎn)梯度的方向。
因此在右圖可以看到,原本的推開不同location之間特征的梯度經(jīng)過(guò)翻轉(zhuǎn)后,會(huì)將其一起拉近。在加上分類的約束后,可以保證網(wǎng)絡(luò)學(xué)到的特征表示實(shí)現(xiàn)location invariant,并且還能保證分類的效果,提高網(wǎng)絡(luò)對(duì)之前未見的location的泛化性能。 挑戰(zhàn)三:數(shù)據(jù)長(zhǎng)尾分布
上方指數(shù)圖展示的是數(shù)據(jù)的分布情況,可以看到數(shù)目最多的類別有超過(guò)十萬(wàn)張圖,而最少的類別可能只有不到十張圖片,一般而言,將類別數(shù)多的類別稱為head類,類別數(shù)少的類別稱為tail類 。 因此,如果直接隨機(jī)采樣batch來(lái)訓(xùn)練分類模型,會(huì)見到很多head類樣本,而tail類樣本則很少見到,這樣會(huì)使得模型更偏向于預(yù)測(cè)head類而不是tail類,從而損傷網(wǎng)絡(luò)的表示能力。 因此,對(duì)于長(zhǎng)尾分布,一般有兩種解決方案,一種是Re-Sampling, 另外一種是Re- Weighting。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀察
- 7 8 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 地平線的野心:1000萬(wàn)套HSD上車