唇語(yǔ)識(shí)別!AI 領(lǐng)域的下一個(gè)萬(wàn)億市場(chǎng)?
英國(guó)查爾斯王子迎娶卡米拉時(shí),讀唇者成功破解了伊麗莎白二世與兒子的低語(yǔ),讓女王糟糕的婆媳關(guān)系浮現(xiàn)在大眾眼前 —— 這可能是“唇語(yǔ)識(shí)別”第一次大面積走進(jìn)大眾的視野。
什么是唇語(yǔ)識(shí)別
所謂的“唇語(yǔ)識(shí)別”,其實(shí)并不神秘。
早在古代,就有專門的唇語(yǔ)師存在。通過(guò)長(zhǎng)期的訓(xùn)練,他們具備了“觀察別人的嘴型,解讀其表達(dá)語(yǔ)句”的能力。在現(xiàn)代社會(huì)里,一些聽力障礙者們也會(huì)使用這種技巧與他人進(jìn)行交談,補(bǔ)充聽力器官的不足。
但隨著科技的發(fā)展,人工智能在各領(lǐng)域漸次開放,在唇語(yǔ)識(shí)別上,機(jī)器已經(jīng)做的比人類好了。
從技術(shù)路徑上,唇語(yǔ)識(shí)別是一項(xiàng)集機(jī)器視覺與自然語(yǔ)言處理于一體的復(fù)合型技術(shù)。
要理解這個(gè)“唇語(yǔ)識(shí)別”,需要注意這幾個(gè)關(guān)鍵詞:
運(yùn)用機(jī)器視覺技術(shù)從圖像中識(shí)別出說(shuō)話人的人臉,提取此人連續(xù)說(shuō)話時(shí)口型變化的特征。
將連續(xù)變化的特征輸入到唇語(yǔ)識(shí)別模型中,識(shí)別說(shuō)話人口型對(duì)應(yīng)的發(fā)音,運(yùn)用大數(shù)據(jù)計(jì)算出可能性最大的自然語(yǔ)言語(yǔ)句。
圖中字幕是由谷歌AI通過(guò)唇讀實(shí)時(shí)同步輸出,語(yǔ)速之快,難度之大。
在唇語(yǔ)識(shí)別過(guò)程中,口型與發(fā)音,發(fā)音與文字之間,并不是唯一對(duì)應(yīng)的關(guān)系,常常有多個(gè)可能的備選結(jié)果,需要實(shí)時(shí)計(jì)算出可能性最大的結(jié)果。
唇語(yǔ)識(shí)別的研究現(xiàn)狀
早在 2003 年,Intel 就開發(fā)了唇語(yǔ)識(shí)別軟件 Audio Visual Speech Recognition(AVSR),開發(fā)者得以能夠研發(fā)可以進(jìn)行唇語(yǔ)識(shí)別的計(jì)算機(jī)。
2016 年 Google DeepMind 的唇語(yǔ)識(shí)別技術(shù)就已經(jīng)可以支持 17500 個(gè)詞,新聞測(cè)試集識(shí)別準(zhǔn)確率首次達(dá)到了 50% 以上。
海云數(shù)據(jù),截至2018年他們訓(xùn)練新聞?lì)惞?jié)目時(shí)長(zhǎng)是1萬(wàn)小時(shí)。為什么是新聞?lì)惞?jié)目?當(dāng)然是因?yàn)椴ヒ魡T的唇語(yǔ)最標(biāo)準(zhǔn)。目前,海云數(shù)據(jù)在英文方面可以達(dá)到80%的準(zhǔn)確度,中文方面是71%
海云數(shù)據(jù)的AI唇語(yǔ)識(shí)別測(cè)試
搜狗的通用識(shí)別準(zhǔn)確率在60%以上,而在車載、智慧家居等垂直場(chǎng)景下,準(zhǔn)確率高達(dá)90%。
搜狗的AI唇語(yǔ)識(shí)別測(cè)試
從視頻中可以看出將面部放入橢圓形區(qū)域內(nèi),不發(fā)聲的說(shuō)出一段話,幾乎說(shuō)完的瞬間,識(shí)別的文字就出現(xiàn)在屏幕上,無(wú)論是口語(yǔ)、詩(shī)詞、歌詞還是繞口令,都能很好的識(shí)別。
唇語(yǔ)識(shí)別的技術(shù)原理
AI唇語(yǔ)識(shí)別技術(shù)原理:
唇語(yǔ)識(shí)別技術(shù)從鏡頭輸入到理解輸出,中間最重要的關(guān)鍵是:視覺前段、視覺特征提取、唇動(dòng)識(shí)別。
視覺前段——包括人臉檢測(cè)與唇的檢測(cè)和定位,先用人臉檢測(cè)演算法得到人臉然后有針對(duì)性的定位唇動(dòng);
或者利用最佳閩值二值化演算法,以唇的邊緣是平滑的,和左右形狀對(duì)稱為條件,作為二值化閩值選定的約束條件,得到平滑而對(duì)稱的唇圖像。
視覺特征提取——是對(duì)獲取的唇圖像進(jìn)行處理得到對(duì)應(yīng)特征,特征提取方法主要分為基于圖元的方法和基于模型的方法兩大類;
搜狗所用的基于模型的方法就是,對(duì)唇的輪廓建立一個(gè)模型,將特征資訊包含在這個(gè)模型之中,并對(duì)模型中特征資訊的變化用一個(gè)小的參數(shù)來(lái)描述。
這類方法的優(yōu)點(diǎn)是重要特征被表示成二維參數(shù),不會(huì)因光照、縮放、旋轉(zhuǎn)、平移而改變,缺點(diǎn)是忽略了細(xì)微的三維資訊,可能會(huì)對(duì)后面的識(shí)別過(guò)程造成影響。
唇動(dòng)識(shí)別——目前采用的技術(shù)大多是隱瑪爾可夫模型( Hidden Markov Model,簡(jiǎn)稱 HMM ),該模型認(rèn)為唇動(dòng)信號(hào)在極短時(shí)間內(nèi)是線性的,可以用線性參數(shù)模型來(lái)表示,然后將許多線性模型在時(shí)間上串接起來(lái),組成一條瑪爾可夫鏈。
瑪爾可夫鏈可以用來(lái)描述統(tǒng)計(jì)特征資訊的變化,并且這種變化過(guò)程與人的唇動(dòng)過(guò)程是相吻合的,所以 HMM 能夠識(shí)別唇動(dòng)并與相應(yīng)語(yǔ)句匹配轉(zhuǎn)化成文字。
隨著機(jī)器學(xué)習(xí)方法在語(yǔ)音識(shí)別領(lǐng)域里取得的巨大成功,尤其是 HMM 的應(yīng)用,根據(jù)唇語(yǔ)識(shí)別研究和語(yǔ)音識(shí)別的相似性,出現(xiàn)了大量的 HMM 應(yīng)用在唇語(yǔ)識(shí)別領(lǐng)域的研究成果。
在非特定開放口語(yǔ)測(cè)試中,目前的通用識(shí)別準(zhǔn)確率已經(jīng)在 70% 以上,而在金融風(fēng)控、車載、智能家居等垂直場(chǎng)景下,已達(dá)到超過(guò) 90% 的準(zhǔn)確率。
唇語(yǔ)識(shí)別的研究意義
人類費(fèi)盡心力開發(fā)研究人工智能、提高唇語(yǔ)識(shí)別的準(zhǔn)確率,除了偷窺伊麗莎白二世和兒子的秘密外,還有很多更為廣泛的用途:
比如應(yīng)用于金融在線業(yè)務(wù)的生物識(shí)別、噪聲環(huán)境下輔助語(yǔ)音識(shí)別、輔助聽障人士交流、體育賽事暴力語(yǔ)言識(shí)別等多個(gè)領(lǐng)域,這些都是有著實(shí)際意義且頗為重要的應(yīng)用場(chǎng)景。
自出現(xiàn)唇語(yǔ)識(shí)別技術(shù)出現(xiàn)起,就有聲音說(shuō)唇語(yǔ)識(shí)別是語(yǔ)言交互的高階戰(zhàn),甚至可能帶來(lái)一場(chǎng)革命。
但在人工智能大范圍落地的今天,國(guó)內(nèi)從業(yè)者扎堆涌入的,大多為語(yǔ)音識(shí)別,圖像識(shí)別,人臉識(shí)別,機(jī)器翻譯,無(wú)人駕駛,虛擬助手和個(gè)性化內(nèi)容推薦等領(lǐng)域,相較這些聚光燈之下的落地場(chǎng)景,唇語(yǔ)識(shí)別相對(duì)冷僻。
但業(yè)界的常識(shí)是:人工智能未來(lái)將會(huì)出現(xiàn)一個(gè)數(shù)萬(wàn)億美元的巨大市場(chǎng),在面對(duì)具體乃至細(xì)碎的應(yīng)用場(chǎng)景時(shí),人工智能的細(xì)分程度,勢(shì)必如百年前的電力那般觸角龐雜。
而廣袤的嫁接空間也意味著,從真實(shí)應(yīng)用場(chǎng)景出發(fā),人工智能領(lǐng)域會(huì)出現(xiàn)不少藍(lán)海市場(chǎng),被國(guó)內(nèi)巨頭忽視的唇語(yǔ)識(shí)別就是其中之一。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來(lái)的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
11月28日立即下載>> 【白皮書】精準(zhǔn)洞察 無(wú)線掌控——283FC智能自檢萬(wàn)用表
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動(dòng)駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 10 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)