AI同傳現(xiàn)場(chǎng)掉鏈子,人工智能的理解能力還需努力
隱馬爾可夫模型(HMM)解決統(tǒng)計(jì)數(shù)據(jù)之外的語言問題
然而,在參考騰訊AI同傳的失誤后,我們發(fā)現(xiàn),僅僅增加數(shù)據(jù)量還是不夠的,在現(xiàn)實(shí)生活中,我們也會(huì)遇到零概率或者統(tǒng)計(jì)量不足的問題。
比如一個(gè)漢語的語言模型,就足足達(dá)到20萬這個(gè)量級(jí)。曾有人做過這樣一個(gè)假設(shè),如果刨掉互聯(lián)網(wǎng)上的垃圾數(shù)據(jù),互聯(lián)網(wǎng)中將會(huì)有100億個(gè)有意義的中文網(wǎng)頁,這還是相當(dāng)高估的一個(gè)數(shù)據(jù),每個(gè)網(wǎng)頁平均1000詞,那么,即使將互聯(lián)網(wǎng)上上所有中文內(nèi)容用作訓(xùn)練,依然只有1013。
為了解決數(shù)據(jù)量的問題,我們提出了隱馬爾可夫模型(HMM)。實(shí)際應(yīng)用中,我們可以把HMM看作一個(gè)黑箱子,這個(gè)黑箱子可以利用比較簡(jiǎn)潔的數(shù)據(jù),處理后得出:
1.每個(gè)時(shí)刻對(duì)應(yīng)的狀態(tài)序列;
2.混合分布的均值和方差矩陣;
3.混合分布的權(quán)重矩陣;
4.狀態(tài)間轉(zhuǎn)移概率矩陣。
看起來可能比較復(fù)雜,簡(jiǎn)單點(diǎn)說,這個(gè)模型可以通過可觀察的數(shù)據(jù)而發(fā)現(xiàn)這個(gè)數(shù)據(jù)域外的狀態(tài),即隱含狀態(tài)。也就是說,我們可以憑借一句話,來探索出這句話后的隱含的意思,從而解決一些微妙的語義問題。
如上圖所示,這個(gè)模型能夠通過你提供的可以明顯觀察的句子,推斷出一個(gè)人隱含的心情狀態(tài)(開心OR難過),并得到最后的行為判斷(宅、購物、社交),即通過已知推斷出未知。
而如何優(yōu)化這個(gè)模型,得到最優(yōu)隱含狀態(tài)?人們提出了許多解決問題的算法,包括前向算法、Viterbi算法和Baum-Welch算法。此中奧妙,難以盡述。但不能否認(rèn)的是,在深度學(xué)習(xí)的基礎(chǔ)上,數(shù)據(jù)+模型就能很好地打造出一款A(yù)I同傳翻譯,數(shù)據(jù)越大,神經(jīng)網(wǎng)絡(luò)更好。即使翻譯結(jié)果不盡如人意,但只要建設(shè)足夠大的數(shù)據(jù)庫,建立更好的模型,打磨算法,AI同傳很快就會(huì)有更大的提升。
NLP金字塔頂端反哺底端:打造高質(zhì)量AI同傳
除了增加數(shù)據(jù)庫和打磨數(shù)據(jù)模型,AI同傳還可以從哪些方面提升呢?我們不妨借鑒一下其它的技術(shù)。下圖中,這四個(gè)方面代表了人們?cè)贜LP領(lǐng)域的一些進(jìn)步。用金字塔形來表示這四個(gè)技術(shù)之間的關(guān)系,難度是逐級(jí)上升的。
目前,聊天機(jī)器人和閱讀理解這一塊兒已經(jīng)取得了很大的突破。而AI閱讀理解技術(shù)的進(jìn)步不止是NLP的高階進(jìn)化,還有一層意義是,科學(xué)之間是相通的,技術(shù)之間可以互相借鑒,金字塔頂端技術(shù)可以反哺底端。
在自然語言處理上,人區(qū)別于AI的點(diǎn)在于人有先驗(yàn)知識(shí)。即人們?cè)诼牭侥硞(gè)字時(shí),會(huì)自然地聯(lián)想到后一個(gè)字,或者會(huì)被一個(gè)詞觸發(fā)了一句話的聯(lián)想。比如,我們聽到“中”,既有可能想到“國(guó)”,也可能想到“間”。但是AI“聯(lián)想”的詞卻依靠數(shù)據(jù)。它說“北”,如果輸入的數(shù)據(jù)不變,那后面跟的就是”京“。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 8 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 9 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 10 美光:AI Capex瘋投不止,終于要拉起存儲(chǔ)超級(jí)周期了?
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)