打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒
打開混淆虛擬與現(xiàn)實(shí)的潘朵拉魔盒
——生成式對抗網(wǎng)絡(luò)簡述
投稿作者:極鏈科技AI實(shí)驗(yàn)室王曉平
你是否曾設(shè)想過這樣的場景:當(dāng)你坐在電腦前,一邊品嘗著清香的茶飲,一邊饒有興致地在網(wǎng)頁上瀏覽著一張張精彩的圖片,從表情豐富的清晰人臉,到色彩艷麗的旖旎風(fēng)光,還有姿態(tài)各異的動物萌寵,等等,一切都是那么的賞心悅目!然而,當(dāng)你接下來突然被告知,所有的這一切都是由計(jì)算機(jī)生成的虛擬照片時(shí),你會否大吃一驚轉(zhuǎn)而不敢相信?畢竟,這些照片是如此的栩栩如生!現(xiàn)如今,這樣的情形已不再是夢幻,例如,thispersondoesnotexist.com就是這樣的一個(gè)虛擬人臉生成網(wǎng)站,當(dāng)用戶進(jìn)入網(wǎng)站后,每一次刷新都可以得到網(wǎng)站即時(shí)生成的一張逼真的“人臉”照片,然而,正如該網(wǎng)站名所指的涵義:在現(xiàn)實(shí)中,This person does not exist!那么,這種無中生有的神奇效果究竟是如何實(shí)現(xiàn)的呢?該網(wǎng)頁同時(shí)在右下角也注明了:“Produced by a GAN (generative adversarial network)”。OK,本文的主角——生成式對抗網(wǎng)絡(luò)(GAN)正式登場。
2014年,加拿大蒙特利爾大學(xué)的Ian J. Goodfellow在《Generative Adversarial Nets》一文中正式提出了生成式對抗網(wǎng)絡(luò),其基本思想就是基于兩個(gè)模型:一個(gè)生成器和一個(gè)判別器。判別器的任務(wù)是判斷一張給定的圖片是真實(shí)的還是虛假的,而生成器的任務(wù)則是生成與真實(shí)圖片相似的圖片以盡可能騙過判別器。打個(gè)比方,生成模型類似一個(gè)假幣制造團(tuán)伙,其任務(wù)是生產(chǎn)和使用假幣,而判別模型則類似金融警察,其職責(zé)是發(fā)現(xiàn)和查處假幣。原始的GAN公式如下式所示,G、D分別為生成器、判別器,x為真實(shí)數(shù)據(jù),z為噪聲數(shù)據(jù),在對值函數(shù)V進(jìn)行最大、最小化約束下,生成器和判別器交替訓(xùn)練優(yōu)化,在此過程中,生成器不斷提升“造假”能力,直至判別器無法區(qū)分真幣和假幣的程度,此時(shí)GAN訓(xùn)練完成。
相比于其它模型,為什么GAN一經(jīng)提出就會受到如此之高的關(guān)注熱度?從本質(zhì)上說,GAN的真正強(qiáng)大之處在于開創(chuàng)了一種新的對抗式學(xué)習(xí)模式,大大提高了對數(shù)據(jù)分布的學(xué)習(xí)能力,甚至可在一定程度上認(rèn)為它賦予了機(jī)器一種類似想象力的能力,能夠展示出諸多炫目的生成效果,也正是因?yàn)檫@種強(qiáng)大之處,GAN入選了《麻省理工科技評論》 2018 年全球十大突破性技術(shù),而近年來掀起的以其為基礎(chǔ)的各種改進(jìn)或創(chuàng)新研究的熱潮也推動了GAN技術(shù)的迅速發(fā)展。下面本文就將對GAN的發(fā)展進(jìn)行簡要的介紹,總體上,這一發(fā)展主要體現(xiàn)在以下幾方面:
一、圖像風(fēng)格轉(zhuǎn)換方面
一百多年前,當(dāng)莫奈在春光明媚的塞納河畔畫下這幅油畫時(shí),當(dāng)時(shí)他眼前的景象究竟是怎樣的?現(xiàn)實(shí)的風(fēng)景是否如同畫作所描述的一般優(yōu)美?要想認(rèn)真回答這個(gè)問題的確很難,因?yàn)槟壳拔覀冞無法乘坐時(shí)光機(jī)器穿越時(shí)空去感同身受,但是,我們可以使用具有風(fēng)格轉(zhuǎn)換功能的GAN來將莫奈的油畫轉(zhuǎn)換為照片風(fēng)格,從而近似地去感受當(dāng)時(shí)的真實(shí)場景。風(fēng)格轉(zhuǎn)換的酷炫效果使得GAN大放異彩,在這方面,典型的有 pix2pix、CycleGAN、DiscoGAN、DualGAN等,其中,pix2pix解決了成對圖像訓(xùn)練的風(fēng)格轉(zhuǎn)換問題,CycleGAN、DiscoGAN、DualGAN則從訓(xùn)練集合的高度,通過定義循環(huán)損失函數(shù)解決了非成對圖像訓(xùn)練的風(fēng)格轉(zhuǎn)換問題,雖然在風(fēng)格轉(zhuǎn)換效果方面稍遜于pix2pix,但卻節(jié)省了大量的樣本準(zhǔn)備時(shí)間,從而大大降低了將GAN投入實(shí)際應(yīng)用的門檻。
成對訓(xùn)練圖像(pix2pix)與非成對訓(xùn)練圖像(CycleGAN)
CycleGAN
在風(fēng)格轉(zhuǎn)換的實(shí)際應(yīng)用過程中,隨之也出現(xiàn)了新的問題如:無論是Pix2Pix還是CycleGAN等,都是從一個(gè)領(lǐng)域到另一個(gè)領(lǐng)域的轉(zhuǎn)換,當(dāng)有多種不同領(lǐng)域的風(fēng)格轉(zhuǎn)換需求時(shí),就需要對每一種領(lǐng)域轉(zhuǎn)換都從頭開始訓(xùn)練一個(gè)新模型來解決,這在實(shí)際使用時(shí)無疑將相當(dāng)?shù)芈闊┖偷托Вb于此,StarGAN應(yīng)運(yùn)而生,其貢獻(xiàn)是提出了高效的多領(lǐng)域轉(zhuǎn)換的統(tǒng)一算法框架。下圖是StarGAN的效果,在同一種模型下,可以進(jìn)行多種圖像風(fēng)格轉(zhuǎn)換任務(wù),如改變頭發(fā)顏色、性別、年齡、膚色等。
StarGAN
二、超分辨率圖像生成方面
超分辨率是計(jì)算機(jī)視覺的一個(gè)經(jīng)典領(lǐng)域,旨在從觀測到的低分辨率圖像重建出相應(yīng)的高分辨率圖像,它在衛(wèi)星遙感圖像、圖像復(fù)原等諸多領(lǐng)域都有著重要的應(yīng)用價(jià)值,而GAN的相關(guān)研究也進(jìn)一步推動了這一領(lǐng)域技術(shù)的發(fā)展。典型的有PG-GAN、BigGAN、pix2pixHD、SR-GAN等,例如,來自NVIDIA的PG-GAN論文,提出以一種漸進(jìn)增大生成器和鑒別器的方式訓(xùn)練GAN,從最初的4x4低分辨率開始,隨著訓(xùn)練的進(jìn)行,不斷添加新的層對越來越精細(xì)的細(xì)節(jié)進(jìn)行建模,最終達(dá)到1024x1024分辨率,實(shí)現(xiàn)了效果令人驚嘆的生成圖像。
PG-GAN
三、生成的可解釋性方面
雖然GAN的對抗式學(xué)習(xí)機(jī)制帶來了驚艷的圖像生成效果,但是剛開始人們對于GAN的生成過程缺乏行之有效的干預(yù)手段,因此,研究者們在這方面進(jìn)行了一系列努力,設(shè)法利用控制變量對生成過程進(jìn)行監(jiān)督,代表性的工作有InfoGAN、CGAN等,其中,InfoGAN提出將生成器的輸入分解為不可壓縮的噪聲和具有不同意義的潛在控制變量,然后通過調(diào)節(jié)潛在控制變量來引導(dǎo)生成器生成具有不同方向、不同字體寬度的圖像。
InfoGAN
MIT的研究者們通過對網(wǎng)絡(luò)進(jìn)行分解,并觀察特定單元在激活或關(guān)閉時(shí)對生成結(jié)果的影響來實(shí)現(xiàn)對GAN的可視化理解(如GAN DISSECTION圖),進(jìn)而在此基礎(chǔ)上實(shí)現(xiàn)了高效繪畫,僅需輕松操作鼠標(biāo),GAN就可以在鼠標(biāo)劃過的地方繪制或擦除樹木、草地、門、天空、云朵、磚墻、圓屋頂?shù)染拔铩?/p>
GAN DISSECTION
四、其它方面
除了上述方面,GAN和其它方面技術(shù)的結(jié)合也展現(xiàn)了相當(dāng)不錯(cuò)的效果,例如,加州大學(xué)伯克利分校的研究人員利用姿態(tài)估計(jì)技術(shù)和GAN實(shí)現(xiàn)了不同人之間的動作遷移“do as I do”,即使你完全不會跳舞,但借助這項(xiàng)技術(shù),只需預(yù)先輸入一段善舞者姿態(tài)優(yōu)美的舞蹈視頻,然后再輸入你本人的隨意動作視頻,經(jīng)過姿態(tài)估計(jì)和網(wǎng)絡(luò)訓(xùn)練、視頻生成后,你立馬就可變身為生成視頻里翩翩起舞的絕對主角。所以,在GAN的助力下,不會跳舞?不存在的!
do as I do
其它的還有能夠?qū)崿F(xiàn)不同人之間聲音轉(zhuǎn)換的starGAN-vc,提高訓(xùn)練的穩(wěn)定性方面如WGAN、WGAN-GP、SNGAN,隱私保護(hù)方面如賓夕法尼亞大學(xué)利用AC-GAN生成的虛擬臨床數(shù)據(jù)進(jìn)行共享以滿足保護(hù)參與者隱私的需求,等等。
GAN技術(shù)的迅速發(fā)展在為我們帶來諸多欣喜成果的同時(shí),其出色的圖像生成能力也使我們難以對諸如“呈現(xiàn)在你眼前的究竟是虛擬OR現(xiàn)實(shí)?”之類的問題給出準(zhǔn)確的答案,因此,眼見也未必為實(shí)。一旦GAN的這種能力被別有用心者利用,將會造成難以預(yù)見的負(fù)面影響,例如2017年底網(wǎng)絡(luò)上出現(xiàn)的基于GAN的換臉視頻就帶給了世人恐慌和震驚;煜摂M與現(xiàn)實(shí)之間界線的潘朵拉魔盒已經(jīng)打開,應(yīng)引導(dǎo)人們以造福學(xué)習(xí)、工作、生活為目的正確合理地使用這項(xiàng)技術(shù),不斷地讓魔盒帶給我們驚喜和希望!

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報(bào)名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
-
10 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 5 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 8 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 機(jī)器人9月大事件|3家國產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 10 美光:AI Capex瘋投不止,終于要拉起存儲超級周期了?
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動化高級工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)