123,123

更復雜的體系結(jié)構(gòu)能保證更好的模型嗎？

2022-04-19 14:46

磐創(chuàng)AI

關注

使用的數(shù)據(jù)集和數(shù)據(jù)預處理

我們將使用Kaggle的狗與貓數(shù)據(jù)集。它是根據(jù)知識共享許可證授權的，這意味著你可以免費使用它：

該數(shù)據(jù)集相當大——25000張圖像均勻分布在不同的類中（12500張狗圖像和12500張貓圖像）。它應該足夠大，以訓練一個像樣的圖像分類器。

你還應該刪除train／cat／666．jpg和train／dog／11702．jpg圖像，這些已經(jīng)損壞，你的模型將無法使用它們進行訓練。

接下來，讓我們看看如何使用TensorFlow加載圖像。

如何使用TensorFlow加載圖像數(shù)據(jù)

今天你將看到的模型將比前幾篇文章中的模型具有更多的層。

為了可讀性，我們將從TensorFlow中導入單個類。如果你正在跟進，請確保有一個帶有GPU的系統(tǒng)，或者至少使用Google Colab。

讓我們把庫的導入放在一邊：

這是很多，但模型會因此看起來格外干凈。

我們現(xiàn)在將像往常一樣加載圖像數(shù)據(jù)——使用ImageDataGenerator類。

我們將把圖像矩陣轉(zhuǎn)換為0–1范圍，使用用三個顏色通道，將所有圖像調(diào)整為224x224。出于內(nèi)存方面的考慮，我們將barch大小降低到32：

以下是你應該看到的輸出：

讓我們鼓搗第一個模型！

向TensorFlow模型中添加層會有什么不同嗎？

從頭開始編寫卷積模型總是一項棘手的任務。網(wǎng)格搜索最優(yōu)架構(gòu)是不可行的，因為卷積模型需要很長時間來訓練，而且有太多的參數(shù)需要檢查。實際上，你更有可能使用遷移學習。這是我們將在不久的將來探討的主題。

今天，這一切都是為了理解為什么在模型架構(gòu)上大刀闊斧是不值得的。我們用一個簡單的模型獲得了75％的準確率，所以這是我們必須超越的基線。

模型1－兩個卷積塊

我們將宣布第一個模型在某種程度上類似于VGG體系結(jié)構(gòu)——兩個卷積層，后面是一個池層。濾波器設置如下，第一個塊32個，第二個塊64個。

至于損失和優(yōu)化器，我們將堅持基本原則——分類交叉熵和Adam。數(shù)據(jù)集中的類是完全平衡的，這意味著我們只需跟蹤準確率即可：

model＿1 ＝ tf．keras．Sequential（［

Conv2D（filters＝32， kernel＿size＝（3， 3）， input＿shape＝（224， 224， 3）， activation＝＇relu＇），

Conv2D（filters＝32， kernel＿size＝（3， 3）， activation＝＇relu＇），

MaxPool2D（pool＿size＝（2， 2）， padding＝＇same＇），

Conv2D（filters＝64， kernel＿size＝（3， 3）， activation＝＇relu＇），

MaxPool2D（pool＿size＝（2， 2）， padding＝＇same＇），

Flatten（），

Dense（units＝128， activation＝＇relu＇），

Dense（units＝2， activation＝＇softmax＇）

］）

model＿1．compile（

loss＝categorical＿crossentropy，

optimizer＝Adam（），

metrics＝［BinaryAccuracy（name＝＇accuracy＇）］

）

model＿1＿history ＝ model＿1．fit（

train＿data，

validation＿data＝valid＿data，

epochs＝10

）

以下是經(jīng)過10個epoch后的訓練結(jié)果：

看起來我們的表現(xiàn)并沒有超過基線，因為驗證準確率仍然在75％左右。如果我們再加上一個卷積塊會發(fā)生什么？

模型2－三個卷積塊

我們將保持模型體系結(jié)構(gòu)相同，唯一的區(qū)別是增加了一個包含128個濾波器的卷積塊：

model＿2 ＝ Sequential（［

Conv2D（filters＝32， kernel＿size＝（3， 3）， input＿shape＝（224， 224， 3）， activation＝＇relu＇），

Conv2D（filters＝32， kernel＿size＝（3， 3）， activation＝＇relu＇），

MaxPool2D（pool＿size＝（2， 2）， padding＝＇same＇），

Conv2D（filters＝64， kernel＿size＝（3， 3）， activation＝＇relu＇），

MaxPool2D（pool＿size＝（2， 2）， padding＝＇same＇），

Conv2D（filters＝128， kernel＿size＝（3， 3）， activation＝＇relu＇），

MaxPool2D（pool＿size＝（2， 2）， padding＝＇same＇），

Flatten（），

Dense（units＝128， activation＝＇relu＇），

Dense（units＝2， activation＝＇softmax＇）

］）

model＿2．compile（

loss＝categorical＿crossentropy，

optimizer＝Adam（），

metrics＝［BinaryAccuracy（name＝＇accuracy＇）］

）

model＿2＿history ＝ model＿2．fit（

train＿data，

validation＿data＝valid＿data，

epochs＝10

）

日志如下：

效果變差了。雖然你可以隨意調(diào)整batch大小和學習率，但效果可能仍然不行。第一個架構(gòu)在我們的數(shù)據(jù)集上工作得更好，所以讓我們試著繼續(xù)調(diào)整一下。

模型3－帶Dropout的卷積塊

第三個模型的架構(gòu)與第一個模型相同，唯一的區(qū)別是增加了一個全連接層和一個Dropout層。讓我們看看這是否會有所不同：

model＿3 ＝ tf．keras．Sequential（［

Conv2D（filters＝32， kernel＿size＝（3， 3）， input＿shape＝（224， 224， 3）， activation＝＇relu＇），

Conv2D（filters＝32， kernel＿size＝（3， 3）， activation＝＇relu＇），

MaxPool2D（pool＿size＝（2， 2）， padding＝＇same＇），

Conv2D（filters＝64， kernel＿size＝（3， 3）， activation＝＇relu＇），

MaxPool2D（pool＿size＝（2， 2）， padding＝＇same＇），

Flatten（），

Dense（units＝512， activation＝＇relu＇），

Dropout（rate＝0．3），

Dense（units＝128），

Dense（units＝2， activation＝＇softmax＇）

］）

model＿3．compile（

loss＝categorical＿crossentropy，

optimizer＝Adam（），

metrics＝［BinaryAccuracy（name＝＇accuracy＇）］

）

model＿3＿history ＝ model＿3．fit（

train＿data，

validation＿data＝valid＿data，

epochs＝10

）

以下是訓練日志：

太可怕了，現(xiàn)在還不到70％！上一篇文章中的簡單架構(gòu)非常好。反而是數(shù)據(jù)質(zhì)量問題限制了模型的預測能力。

結(jié)論

這就證明了，更復雜的模型體系結(jié)構(gòu)并不一定會產(chǎn)生性能更好的模型。也許你可以找到一個更適合貓狗數(shù)據(jù)集的架構(gòu)，但這可能是徒勞的。

你應該將重點轉(zhuǎn)移到提高數(shù)據(jù)集質(zhì)量上。當然，有20K個訓練圖像，但我們?nèi)匀豢梢栽黾佣鄻有�。這就是數(shù)據(jù)增強的用武之地。

感謝閱讀！

原文標題 : 更復雜的體系結(jié)構(gòu)能保證更好的模型嗎？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞