真人主播危機(jī)?虛擬主播成市場新晉“網(wǎng)紅”
在今年天貓雙十一預(yù)售日,李佳琦再次刷新了直播記錄,39款商品秒光,4個(gè)多小時(shí)累積突破3000萬圍觀。長達(dá)4小時(shí)的超負(fù)荷直播,也讓很多企業(yè)想到“虛擬主播”代替真人主播這一新的發(fā)展機(jī)遇。
2018年,搜狗和新華社聯(lián)合推出的全球首個(gè)AI合成主播的誕生,掀開了“AI+虛擬主播”的神秘面紗,一時(shí)間,嗅到“科技紅利”的市場各方開始蜂擁而上。2019央視網(wǎng)絡(luò)春晚推出AI虛擬主持人團(tuán)隊(duì),今年兩會(huì)期間,新華社推出AI虛擬主播“新小萌”,人民日報(bào)推出AI虛擬主播“小晴”;乜催@兩年市場熱潮,總讓人有一種錯(cuò)覺,仿佛回到了當(dāng)初世界首個(gè)虛擬主持人誕生時(shí)。不過,相比當(dāng)初“曇花一現(xiàn)”的虛擬主播,這次新增的“AI”元素,或許會(huì)為市場帶來更多的機(jī)會(huì)。
虛擬主持的誕生
自工業(yè)革命起,以機(jī)器代替手工勞動(dòng)就成了人類努力的方向。隨后,第一臺(tái)計(jì)算機(jī)的發(fā)明,讓機(jī)器開始升級為“人工智能”。步入互聯(lián)網(wǎng)時(shí)代后,“人工智能”更是加快了替代手工勞動(dòng)的步伐,并從基礎(chǔ)的體力勞動(dòng)層面漸漸轉(zhuǎn)向創(chuàng)意、創(chuàng)作層面。在這一時(shí)代,更是誕生了諸如曠視科技、商湯科技、依圖科技、云從科技、極鏈科技這樣的優(yōu)質(zhì)初創(chuàng)人工智能企業(yè)。
早在2001年,英國PA New Media公司曾推出世界上第一個(gè)虛擬主持人阿娜諾娃,一個(gè)只有頭部的動(dòng)畫,可根據(jù)新聞腳本快速制作視頻,并可24小時(shí)持續(xù)播報(bào)。此后,日本推出了寺井有紀(jì),中國推出了小龍,美國推出了薇薇安,韓國推出了露西雅,市場上虛擬主播的地位一片欣欣向榮。但阿娜諾娃沒多久就退出了舞臺(tái),曾經(jīng)吹捧過她的媒體紛紛關(guān)閉舊欄目,開設(shè)新欄目,換上真人主持,好像阿娜諾娃從未出現(xiàn)過一樣。
直至今日,再回看當(dāng)年的這波虛擬主持人熱潮,仍有幾點(diǎn)值得反思:
1.技術(shù)的成熟是產(chǎn)品出現(xiàn)的關(guān)鍵,但產(chǎn)品的成熟度如何,是由市場評判的。市場之所以會(huì)追捧虛擬主持人,根本目的是為了節(jié)省制作成本,提升制作效率。但早期的虛擬主持人,從整個(gè)制作過程來看,成本其實(shí)遠(yuǎn)超聘請一位專業(yè)真人主持。
2.虛擬主持人具有行業(yè)特殊性,對語音、表情、肢體等都有很高的要求。相比其他行業(yè),主持人最基本的要求就是口才。也就是說,虛擬主持人要達(dá)到與真人主持一樣的口才,語音識別和自然語言處理的準(zhǔn)確率都要求極高。顯然在這方面,早期虛擬主持人還沒有這種技術(shù)。其次,要讓虛擬人物播報(bào)呈現(xiàn)出自然狀態(tài),就必須解決口型匹配、表情匹配,乃至肢體動(dòng)作匹配等問題。最后,在制作播報(bào)視頻時(shí),一定要快、穩(wěn)、準(zhǔn)。新聞行業(yè)是一個(gè)極為注重時(shí)效性的行業(yè),如果制作一個(gè)視頻就需要花費(fèi)幾天乃至幾周的時(shí)間,那虛擬主持人取代真人主持顯然是偽命題。
3.虛擬主持人是否一定要像真人,這是在做產(chǎn)品之前必須明確好的方向。早期的虛擬主持人都格外在意“像真人”,似乎這是一條鐵律。這很大程度上,源自在當(dāng)時(shí)環(huán)境下,主持人大多與新聞播報(bào)捆綁,像真人才更有可信度。但從長遠(yuǎn)發(fā)展來看,“像真人”真的是必須的嗎?
合成技術(shù)原理
其實(shí)所謂的“像真人”,不外乎是運(yùn)用“AI合成”技術(shù)!疤摂M主播”通過提取真人主播新聞播報(bào)視頻中的聲音、唇形、表情動(dòng)作等特征,運(yùn)用語音、唇形、表情合成以及深度學(xué)習(xí)等技術(shù)聯(lián)合建模訓(xùn)練而成。
該項(xiàng)技術(shù)要能夠?qū)⑺斎氲闹杏⑽奈谋咀詣?dòng)生成相應(yīng)內(nèi)容的視頻,并確保視頻中音頻和表情、唇動(dòng)保持自然一致,展現(xiàn)與真人主播無異的信息傳達(dá)效果。但在此之前,出現(xiàn)在大眾媒體上的虛擬主播,多半只有聲音,或者匹配一個(gè)量身定制的虛擬形象,比如微軟小冰在東方衛(wèi)視擔(dān)任天氣預(yù)報(bào)員就是如此。
要實(shí)現(xiàn)這樣的效果,兩大要求缺一不可。其一是高逼真度。要能夠自動(dòng)生成語音、表情、唇動(dòng)等信息完全一致的自然視頻,并已達(dá)到商用級別。其二是低成本的個(gè)性化定制。小數(shù)據(jù)的學(xué)習(xí)模型,使用少量用戶真實(shí)音視頻數(shù)據(jù),快速遷移生成虛擬的分身模型,快速定制出高逼真度的分身模型。最后,使用時(shí)輸入一段文本,即可生成與真人無異的同步音視頻。
除此之外,語音合成引擎和圖像生成引擎也是重要的兩點(diǎn)。在語音合成引擎中,基于用戶少量音頻數(shù)據(jù),使用語音合成技術(shù),快速學(xué)習(xí)用戶音色、韻律、情感等多維度特征,建立輸入文本與輸出音頻信息的關(guān)聯(lián)。
圖像生成引擎,則是使用人臉識別、三維人臉重建、表情建模等技術(shù)對人臉表情動(dòng)作進(jìn)行特征學(xué)習(xí)和建模,建立輸入文本、輸出音頻與輸出視覺信息的關(guān)聯(lián)映射,生成輸出分身視頻。
最后,兩大引擎協(xié)作打磨,最終才能實(shí)現(xiàn)“AI合成主播”,能夠逼真模擬人類說話的聲音、嘴唇動(dòng)作和表情,并將三者自然匹配,做到惟妙惟肖,讓機(jī)器以更逼真自然的形象呈現(xiàn)在用戶面前。
小結(jié):
和真人主播相比,“虛擬主播”能夠不知疲倦地工作24小時(shí),同時(shí)還掌握多國語言,大大提升效率、降低成本。甚至寫好文字稿,“ 虛擬主播”就能即可播送了,還不會(huì)出現(xiàn)口誤或NG,更是讓個(gè)性化內(nèi)容生成的門檻大為降低。娛樂、醫(yī)療健康、教育、法律等多個(gè)領(lǐng)域和場景,無一不適用。未來,這項(xiàng)技術(shù)或許在虛擬教師、虛擬醫(yī)生,虛擬客服等需要人類參與的內(nèi)容表達(dá)場景,都能發(fā)揮出其價(jià)值。

發(fā)表評論
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
11月28日立即下載>> 【白皮書】精準(zhǔn)洞察 無線掌控——283FC智能自檢萬用表
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動(dòng)駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 10 機(jī)器人9月大事件|3家國產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動(dòng)化高級工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)