亚洲国产小视频精品久久久三级 ,夜栋病勤1一12在线观看

谷歌公布新研究BiT探索大規(guī)模數據如何影響預訓練模型性能

2020-05-28 11:28

遷移學習

基于構建BERT過程中的方法，研究人員將BiT模型在一系列下游任務上進行調優(yōu)，而在調優(yōu)的過程中只使用了非常有限的數據。由于預訓練模型已經對視覺特征有著良好的理解，這種簡單的策略已經能夠取得非常優(yōu)異的結果。

模型調優(yōu)的過程涉及一系列超參數的選擇，包括學習率、權重衰減參數等等。在這篇文章中提出了一種啟發(fā)式的超參數選擇方法“BiT－HyperRule”，它僅僅依賴高層次的數據集特征，包括圖像分辨率和標簽數量等。這種方法成功地應用到了從自然圖像到醫(yī)學影像等超過20個不同的任務上。

當BiT模型訓練完成后，它可以使用少量數據調優(yōu)就可以應用到其他的視覺任務上。

當利用非常少的樣本對BiT進行遷移學習時，研究人員發(fā)現隨著預訓練過程中使用的數據量和架構容量的增加，所得到遷移后的模型性能也在顯著增加。當在較小數據集ILSVRC上增加模型容量時，1－shot和5－shot情況下遷移CIFAR得到的增益都較�。ㄏ聢D中綠線）。而在大規(guī)模的JFT數據集上進行預訓練時，模型容量增加會帶來顯著的增益（紅棕色線所示），BiT－L可以在單樣本和五樣本上達到64％和95％的精度。

曲線描繪了五次平均運行后模型遷移到CIRAR－10數據集上的平均精度。不同架構的性能曲線表明，在大數據集上的容量更大的架構具有更為顯著的數據效率。

為了進行更為廣泛的驗證，研究人員還在BTAB－1k上驗證了BiT的性能，其中包含了19個不同的獨立任務，每個任務包含1000個標注樣本。通過將BiT－L遷移到這些任務上，達到了76．3％的整體分數，比先前最好的方法提高了5．8％。

下表展示了這種大規(guī)模預訓練和簡單遷移學習的有效性，即使是在數據量有限的情況下也得到了最好或接近最好的結果。BiT即使作RetinaNet的主干網絡在COCO數據集上進行結構化的檢測任務，這種大規(guī)模的預訓練也能帶來顯著的性能提升。

左側顯示了BiT－L在不同的標準視覺任務上取得的優(yōu)異結果。右側展示了在目標檢測任務的遷移性能。

值得一提的是，在所有這些遷移任務上都沒有使用特殊的調參技巧，全部基于BiT－HyperRule來進行調參，在充分的數據集上進行調參甚至可以得到更好的結果。

ObjectNet上的測評

為了在更具挑戰(zhàn)的場景下驗證BiT的性能，研究人員在最近提出的ObjectNet數據集上進行了驗證，這一模型更為接近真實場景，同時具有非典型的內容、視角和旋轉等。受益于更大的數據和架構容量，BiT－L在這一任務上取得了令人矚目的成就，實現了高達80％的top－5精度，超出先前最先進方法近25個百分點！