訂閱
糾錯
加入自媒體

谷歌公布新研究BiT探索大規(guī)模數據如何影響預訓練模型性能

遷移學習

基于構建BERT過程中的方法,研究人員將BiT模型在一系列下游任務上進行調優(yōu),而在調優(yōu)的過程中只使用了非常有限的數據。由于預訓練模型已經對視覺特征有著良好的理解,這種簡單的策略已經能夠取得非常優(yōu)異的結果。

模型調優(yōu)的過程涉及一系列超參數的選擇,包括學習率、權重衰減參數等等。在這篇文章中提出了一種啟發(fā)式的超參數選擇方法“BiT-HyperRule”,它僅僅依賴高層次的數據集特征,包括圖像分辨率和標簽數量等。這種方法成功地應用到了從自然圖像到醫(yī)學影像等超過20個不同的任務上。

當BiT模型訓練完成后,它可以使用少量數據調優(yōu)就可以應用到其他的視覺任務上。

當利用非常少的樣本對BiT進行遷移學習時,研究人員發(fā)現隨著預訓練過程中使用的數據量和架構容量的增加,所得到遷移后的模型性能也在顯著增加。當在較小數據集ILSVRC上增加模型容量時,1-shot和5-shot情況下遷移CIFAR得到的增益都較。ㄏ聢D中綠線)。而在大規(guī)模的JFT數據集上進行預訓練時,模型容量增加會帶來顯著的增益(紅棕色線所示),BiT-L可以在單樣本和五樣本上達到64%和95%的精度。

曲線描繪了五次平均運行后模型遷移到CIRAR-10數據集上的平均精度。不同架構的性能曲線表明,在大數據集上的容量更大的架構具有更為顯著的數據效率。

為了進行更為廣泛的驗證,研究人員還在BTAB-1k上驗證了BiT的性能,其中包含了19個不同的獨立任務,每個任務包含1000個標注樣本。通過將BiT-L遷移到這些任務上,達到了76.3%的整體分數,比先前最好的方法提高了5.8%。

下表展示了這種大規(guī)模預訓練和簡單遷移學習的有效性,即使是在數據量有限的情況下也得到了最好或接近最好的結果。BiT即使作RetinaNet的主干網絡在COCO數據集上進行結構化的檢測任務,這種大規(guī)模的預訓練也能帶來顯著的性能提升。

左側顯示了BiT-L在不同的標準視覺任務上取得的優(yōu)異結果。右側展示了在目標檢測任務的遷移性能。

值得一提的是,在所有這些遷移任務上都沒有使用特殊的調參技巧,全部基于BiT-HyperRule來進行調參,在充分的數據集上進行調參甚至可以得到更好的結果。

ObjectNet上的測評

為了在更具挑戰(zhàn)的場景下驗證BiT的性能,研究人員在最近提出的ObjectNet數據集上進行了驗證,這一模型更為接近真實場景,同時具有非典型的內容、視角和旋轉等。受益于更大的數據和架構容量,BiT-L在這一任務上取得了令人矚目的成就,實現了高達80%的top-5精度,超出先前最先進方法近25個百分點!

BiT在ObjectNet上的評測結果,左側為top5精度右側為top1精度。

結  語

本研究發(fā)現在大規(guī)模通用數據的訓練下,簡單的遷移策略就可以達到令人矚目的成果,無論是基于大數據還是小樣本數據甚至單樣本數據,通過大規(guī)模預訓練的模型在下游任務中都能取得顯著的性能提升。BiT預訓練模型將為視覺研究人員提供代替ImageNet預訓練模型的全新選擇。

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號