百度推“DeepVoice”最終版:半小時即可學會一種口音
最近,百度終于推出了DeepVoice的“最終版”,并聲稱最終版可以在每半個小時內(nèi)完成對10000種語音的數(shù)據(jù)學習。
DeepVoice作為一個完全有深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語音轉(zhuǎn)文本系統(tǒng),能夠用于智能手機地圖與語音軟件;能夠?qū)崿F(xiàn)游戲角色由玩家自己合成聲音,從而替代原聲配音;還能夠用于音樂合成供娛樂消遣。但目前百度DeepVoice產(chǎn)出的口音,其合成感還是很明顯。
百度于今年2月份推出的DeepVoice第一代,與神經(jīng)文本到語音(TTS)系統(tǒng)不同,它只能學習較短的句子,并且系統(tǒng)每次只能學習一種聲音,在數(shù)個小時后才能掌握。
在今年5月份推出的DeepVoice2,模仿口音時間有所提高,大約一個小時內(nèi)即可模仿出一種口音。單系統(tǒng)即可以學習數(shù)百種不同的口音,同時實現(xiàn)高音質(zhì)。
如今推出的DeepVoice最終版,效率極大提高,可以在半個小時內(nèi)完成對10000種語音數(shù)據(jù)的學習。但是,百度表示“最終版”仍然有進步空間,他們要制造出一種能夠掌握多種口音或能捕捉字符間細微差別的系統(tǒng),以使得語音合成系統(tǒng)用處更廣泛,學習聲音真實程度更高,錯誤率降低。
除了百度之外,Google、Apple和Amazon都有相關(guān)的語音合成研發(fā)產(chǎn)品。Google旗下的DeepMind,一直在進行一個名叫WaveNet的類似項目。最新版本的WaveNet已經(jīng)能夠在掌握口音方面做到真實、高效,甚至可以像真人那樣產(chǎn)生“唇音”?梢姡俣鹊恼Z音合成軟件的研發(fā)之路還很長遠。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
-
10 大模型的盡頭是開源
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 4 華為公布昇騰芯片三年計劃,自研HBM曝光
- 5 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 6 機器人9月大事件|3家國產(chǎn)機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 7 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機還是轉(zhuǎn)機?
- 8 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 9 美光:AI Capex瘋投不止,終于要拉起存儲超級周期了?
- 10 華為已殺入!AI領(lǐng)域最熱黃金賽道,大廠的數(shù)字人美女讓我一夜沒睡著覺