智能語音助手會被方言打敗嗎?這些AI創(chuàng)企正在找新的解決方案
自從IBM的Shoebox和Worlds of Wonder的玩具娃娃Julie doll發(fā)布以來,語音識別技術一直在不斷地發(fā)展。到2018年底,Google Assistant支持超過30種不同的語言。高通也開發(fā)了一款可以識別單詞和短語的語音識別系統(tǒng),其準確率高達95%。此外,微軟的智能語音客服比人工呼叫服務更加準確高效。
然而,盡管機器學習使語音識別技術的發(fā)展突飛猛進,如今這些語音識別系統(tǒng)還是不夠完美,最嚴重的問題就是有地域歧視性。華盛頓郵報最近進行的一項研究結果顯示,谷歌和亞馬遜研發(fā)的流行智能語音助手識別非美國本地口音的準確率要比美國本地口音低30%。像IBM和微軟這樣的公司都會通過Switchboard語料庫來降低語音助手的出錯率。但是事實證明,語料庫也無法徹底解決語音助手的口音識別問題。
“數據是混亂的,因為數據反映了人性,”埃森哲的全球責任AI監(jiān)理Rumman Chowdhury說,“這就是算法最擅長之處:尋求人類行為模式。”
算法偏差表示機器學習模型對數據或者設計產生偏見的程度。很多新聞報道都對面部識別系統(tǒng)(尤其是亞馬遜網絡服務的圖像識別Rekognition)產生了不小的偏見。而且,算法偏差還會出現在其他方面,比如預測被告是否會在未來犯罪的自動化系統(tǒng)以及谷歌新聞等app背后的內容推薦算法。
微軟以及包括IBM、高通和Facebook在內的AI行業(yè)領導者已經開發(fā)出自動化工具,用于檢測并減少AI算法中產生的偏差,但很少有人能夠提出口音識別問題的具體解決方案。
真正提出解決方案的只有兩家公司。一個是Speechmatics,另一個便是Nuance。
解決口音差距問題
Speechmetrics是一家專門研究企業(yè)語音識別軟件的劍橋科技公司,它于12年前就開始實施了一項雄心勃勃的計劃,旨在開發(fā)比市場上任何產品更準確全面的語言識別系統(tǒng)。
該公司最初是研究統(tǒng)計語言建模和循環(huán)神經網絡。它開發(fā)了一種可以處理內存輸出序列的機器學習模型。2014年,它利用一個十億字節(jié)的語料庫加速其統(tǒng)計語言建模的發(fā)展,從此邁出了第一步。到了2017年,它又邁向了另一個里程碑:與卡塔爾計算研究所(QCRI)合作開發(fā)了阿拉伯語言文字轉換服務。
“我們已經發(fā)現我們需要開發(fā)一款語音識別系統(tǒng),只需一種模式便能適用于所有語言,不再有口音問題,并且它識別澳大利亞口音的準確度和轉錄蘇格蘭口音一樣高!盨peechmatics首席執(zhí)行官Benedikt vonThüngen說。
他們在今年七月成功研發(fā)了一款這樣的語音識別系統(tǒng)Global English。它擁有40多個國家的數千小時的語音數據和數百億單詞,支持所有英語口音的語音文本轉換功能。此外,Global English的建立還離不開Speechmatic的Automatic Linguist,這是一種人工智能框架,通過利用已知語言中識別的模式來學習新語言的語言基礎。
“假設你一邊要和美國人交談,另一邊還要和澳大利亞人交流,而且這個美國人曾經住在加拿大,所以有加拿大口音,這時大多數的語音識別系統(tǒng)都會很難識別這種帶有不同口音的語言,但是我們的語音識別系統(tǒng)就完全不用擔心這個問題。”Speechmatics公司產品副總裁Ian Firth在一次采訪中說。
在測試中,Global English在識別特定的口音方面表現的比谷歌的Cloud Speech API和IBM的Cloud還要出色。Thüngen表示,在高端領域中,它的準確率比其他產品還要高23%到55%。
Speechmatics并不是唯一一家想要解決口音識別問題的公司。
總部位于馬薩諸塞州柏林頓的Nuance表示,它將采用多種方法,確保其語音識別系統(tǒng)能夠識別將近80種語言,并且準確率都一樣高。
在其英國語言模型中,它收集了20個特定方言區(qū)域的語音和文本數據,包括每種方言獨有的單詞(比如使用單詞“cob”特指面包卷)及其發(fā)音。因此,這款Nuance的語音識別系統(tǒng)便能識別出“Heathrow”的52種不同表達方式。
如今,Nuance語音識別系統(tǒng)又有了新的發(fā)展。更新版本的Dragon是Nuance研發(fā)的定制語音文本轉換軟件組合,其機器學習模型可根據用戶的口音在幾種不同的方言中自動切換。與沒有方言自動切換功能的舊版本相比,新版本的語音識別系統(tǒng)識別帶有西班牙口音的英語的準確率要高22.5%,識別美國南部方言的準確率要高16.5%,識別東南亞英語的準確率要高17.4%。
數據越多越好
歸根結底,語音識別的口音問題是由于數據不足產生的。語料庫的質量越高,語言模型越多種多樣,那么至少從理論上來說語音識別系統(tǒng)的準確率越高。
在華盛頓郵報的研究中,Google Home智能語音助手識別美國南部語言的準確率要比識別美國西部語言的準確率低3%。而亞馬遜的Echo識別美國中西部語言的準確率要低2%.
亞馬遜的一位發(fā)言人告訴華盛頓郵報,隨著更多的用戶用不同的口音說話,Alexa的語音識別能力會不斷提高。并且,谷歌在一份聲明中表示,他們將通過擴大自己的數據庫,不斷改進Google Assistant的語音識別技術。
隨著使用語音識別系統(tǒng)的用戶越來越多,它們的功能會進一步提升。根據市場研究公司Canalys數據顯示,到2019年之前,將近1億智能語音系統(tǒng)在全球銷售。并且,在2022年之前,大約55%的美國家庭都會擁有一個智能語音系統(tǒng)。
不要指望有徹底解決口音問題的方案。
“按現在的技術發(fā)展,你不可能研發(fā)出準確率最高并且適用于全世界用戶的語音識別系統(tǒng),”Faith說!澳隳茏龅淖詈玫氖虑楸闶潜WC這些語音識別系統(tǒng)能夠準確識別那些正在使用它們的用戶的口音!

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業(yè)年度評選
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業(yè)大會
-
10 大模型的盡頭是開源
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 4 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 5 機器人9月大事件|3家國產機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 6 谷歌“香蕉”爆火啟示:國產垂類AI的危機還是轉機?
- 7 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 8 美光:AI Capex瘋投不止,終于要拉起存儲超級周期了?
- 9 華為已殺入!AI領域最熱黃金賽道,大廠的數字人美女讓我一夜沒睡著覺
- 10 隱退4年后,張一鳴久違現身!互聯網大佬正集體殺回