AI時代工具應(yīng)用如何轉(zhuǎn)型,或許百度輸入法AI探索版給出了答案
2003年5月,《哈佛商業(yè)評論》上刊載了尼古拉斯·卡爾那篇題為《IT Doesn’t Matter》(IT不再重要)的文章。
這本文章與其說是《IT不再重要》,不如說是《互聯(lián)網(wǎng)不再重要》,因為其實尼古拉斯·卡爾在這本書中表達的主題,人工智能、云計算、大數(shù)據(jù)將會改變我們的時代。
這個標(biāo)題拿來形容當(dāng)下的中國互聯(lián)網(wǎng)可能有很大相通之處。移動時代正在整體向AI時代過渡。移動時代的產(chǎn)品都要紛紛迎接新格局,語音也是如此。
在2018年10月的中國計算語言學(xué)大會上,語音識別科學(xué)家黃學(xué)東博士提到,“語音和語言之進化對人工智能的重要意義毫不亞于語音和語言對人類進化的決定性作用”。百度輸入法在1月15日發(fā)布會展示的新技術(shù)同樣呈現(xiàn)了這個趨勢。
可以說,百度輸入法正是目前的業(yè)內(nèi)標(biāo)桿。這也是第一家真正思考AI時代人機交互的輸入法產(chǎn)品。
智能語音的進化甚至正在把人機交互帶入新的階段。不僅僅有問有答、包含上下語義邏輯,人工智能硬件能夠更多地融合各種環(huán)境信息,作出不同決策或推薦。
百度系產(chǎn)品在過去幾年的進化過程中,逐漸展現(xiàn)出了新的人機交互邏輯。
一、交互的進化
工具型產(chǎn)品在不同時代、不同需求、不同場景往往面臨著轉(zhuǎn)型考驗。搜索、輸入法這些從PC時代走到移動時代的產(chǎn)品,到了AI時代再一次發(fā)生進化。
搜索這樣的產(chǎn)品就在從過去的搜索引擎,變成“搜索+信息流”的雙引擎產(chǎn)品。像百度APP就在融入AI,把過去搜索引擎時代的人找信息,變成信息、服務(wù)找人。既能讓用戶找到信息,也能讓信息找到用戶,重構(gòu)了新型信息服務(wù)體驗。
輸入法同樣如此。輸入法本質(zhì)上是人類和機器的交互方式。我們真正去追根溯源就會發(fā)現(xiàn),PC時代,輸入法要通過鍵鼠讓我們和機器交互。隨著移動時代的來臨,觸摸屏又取代鍵鼠,成了輸入法新的承載。
細(xì)細(xì)數(shù)來,鍵鼠這種交互方式存在至今不過百年,而觸摸屏這種交互方式嚴(yán)格算來也僅僅只有不到20年。實際上,語音本來就是人誕生以來最天然的交互方式。未來輸入法通過語音的方式獲取服務(wù),甚至在搜索、娛樂、購物等眾多場景出現(xiàn),也毫不為奇。
早在微軟Build2016開發(fā)者大會上,微軟CEO納德拉就提出了“Conversations as a Platform”,也就是“對話即平臺”的人工智能發(fā)展方向。
這個概念在后來也被成為是“對話式人工智能”。
所謂“對話式人工智能”指的是,對話本身就是一個平臺,各種知識、信息與服務(wù)都運行在“對話”其上,可以形成生態(tài)環(huán)境的基礎(chǔ)平臺。人和人工智能之間的對話,即是解決各種問題的一種路徑和方式。
事實上,百度輸入法正在朝這個方向努力——用AI改變?nèi)撕褪澜绲慕换シ绞剑屓藗冸S時隨地與世界互動,獲取生活服務(wù)。
二、技術(shù)的躍進
產(chǎn)品進化終究需要長期祭奠技術(shù),并在技術(shù)積淀過程中厚積薄發(fā),最終在產(chǎn)品層面體現(xiàn)出來。
這次百度輸入法進化的秘密在于“流式多級的截斷Attention模型”(注意力模型),還在業(yè)界第一次創(chuàng)新性的提出了SMLAT技術(shù)。這是國際上首次超越了整句的注意力模型。這也是國際上首次實現(xiàn)在線語音大規(guī)模使用注意力模型。
我們先解釋“流式多級的截斷Attention模型”這個問題。
要知道,過去傳統(tǒng)的Attention模型都是基于整句的,整句Attention技術(shù)是在語音都上傳到服務(wù)器后,才能開始聲學(xué)打分計算和解碼,會引入較大的用戶等待時間,沒法做到在線語音交互的大規(guī)模實時服務(wù),達不到上線標(biāo)準(zhǔn)。
百度在使用“流式多級的截斷Attention模型”之后,主要技術(shù)優(yōu)勢在三點。
1、基于CTC的尖峰信息對語音流進行截斷,然后再每一截斷的語音小段上進行當(dāng)前建模單元的注意力建模;
2、把全局的Attention的整句識別變成了局部的Attention的流式識別,并且引入多層的Attention,實現(xiàn)特征層層遞進的更精準(zhǔn)的特征選擇;
3、語音識別的識別率超越傳統(tǒng)的全局Attention建模,同時計算速度和傳統(tǒng)CTC技術(shù)持平,實現(xiàn)全CPU流量的大規(guī)模線上服務(wù)。
另外在在離線語音識別領(lǐng)域,百度輸入法還在持續(xù)優(yōu)化Deep Peak 2系統(tǒng),讓離線語音輸入相對準(zhǔn)確率再次提升。 這些內(nèi)容聽起來很專業(yè),我們通俗解釋的話就是,這使得語音的相對準(zhǔn)確率提高了,而且用戶可以說得更自由了。
不管是流式多級的截斷Attention模型以及優(yōu)化Deep Peak 2系統(tǒng)。這些技術(shù)進展在逗未來在技術(shù)轉(zhuǎn)化和產(chǎn)品落地上產(chǎn)生影響。

最新活動更多
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 5 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 L3自動駕駛延期,逼出車企技術(shù)自我淘汰
- 8 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機還是轉(zhuǎn)機?
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 10 機器人9月大事件|3家國產(chǎn)機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市