123,123,123

深度學(xué)習(xí)可以解決自我駕駛問(wèn)題嗎？

2020-07-24 09:10

智車科技IV

關(guān)注

在計(jì)算機(jī)視覺(jué)文獻(xiàn)中存在很多立體深度估計(jì)算法，但它們都無(wú)法同時(shí)實(shí)現(xiàn)：實(shí)時(shí)處理、高精確度、全自動(dòng)的。

人類使用立體視覺(jué)（Eyes），即使深度僅為一幅圖像，也能出色地估計(jì)深度。甚至可以閉上一只眼睛，并且仍然可以合理地估計(jì)深度！

人類是否真的在“學(xué)習(xí)”如何感知深度？我們無(wú)法真正回答這個(gè)問(wèn)題。

但是，深度仍然可以被視為學(xué)習(xí)問(wèn)題，因此深度“足夠好”可以解決自我駕駛問(wèn)題嗎？

現(xiàn)在有幾篇論文將視線深度估計(jì)作為學(xué)習(xí)問(wèn)題：

1．監(jiān)督深度估計(jì)

“監(jiān)督”深度學(xué)習(xí)背后的概念很簡(jiǎn)單，收集RGB圖像及其相應(yīng)的深度圖，訓(xùn)練類似于“自動(dòng)編碼器”的體系結(jié)構(gòu)進(jìn)行深度估計(jì)。（盡管訓(xùn)練起來(lái)不那么簡(jiǎn)單，但如果不通過(guò)訓(xùn)練過(guò)程整合一些特殊技巧，F(xiàn)CN就永遠(yuǎn)無(wú)法真正發(fā)揮作用：）。

盡管此方法更易于掌握，但在現(xiàn)實(shí)生活中收集深度圖是一項(xiàng)昂貴的任務(wù)。LiDAR數(shù)據(jù)可用于訓(xùn)練這類網(wǎng)絡(luò)，因此，如果我們對(duì)由LiDAR收集的數(shù)據(jù)進(jìn)行訓(xùn)練，則神經(jīng)網(wǎng)絡(luò)的性能將明顯優(yōu)于LiDAR，但仍然可以，因?yàn)槲覀儾恍枰欠N級(jí)別的準(zhǔn)確性來(lái)駕駛汽車?yán)�，知道�?shù)上是否有葉子的確切距離。

2．無(wú)監(jiān)督深度估計(jì)

僅在一系列環(huán)境中記錄質(zhì)量深度數(shù)據(jù)是一個(gè)具有挑戰(zhàn)性的問(wèn)題。無(wú)監(jiān)督方法可以在沒(méi)有地面真實(shí)深度圖的情況下學(xué)習(xí)深度！

“這種方法只是查看未標(biāo)記的視頻，并找到一種方法來(lái)創(chuàng)建深度圖，方法不是嘗試正確，而是嘗試保持一致�！�

3．神經(jīng)網(wǎng)絡(luò)架構(gòu)

該網(wǎng)絡(luò)具有類似于U－Net的架構(gòu)，編碼器部分是在ImageNet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練DenseNet模型。解碼器部分使用雙線性上采樣而不是簡(jiǎn)單的上采樣。

簡(jiǎn)而言之，我們使用雙線性上采樣是因?yàn)樗谏喜蓸雍髸?huì)整體上產(chǎn)生“平滑”圖像。輸出是深度圖，深度圖是圖像大小的一半，這有助于網(wǎng)絡(luò)學(xué)習(xí)更快。

4．圖像增強(qiáng)

對(duì)于圖像增強(qiáng)，可以使用以下技術(shù)：圖像翻轉(zhuǎn)，輸入圖像的色彩通道改組，向輸入圖像添加噪點(diǎn)，增加輸入圖像的對(duì)比度，亮度，溫度等。這樣可以確保模型在整個(gè)訓(xùn)練過(guò)程中始終看到新數(shù)據(jù)，并更好地泛化未見(jiàn)數(shù)據(jù)。

目前，深度估計(jì)在AR ／ VR中已經(jīng)得到了許多應(yīng)用。

<上一頁(yè) 1 2