人工智能:破解梵蒂岡神秘卷宗之謎,以后青銅銘文也交給 AI 來(lái)識(shí)別好了!
這個(gè) AI 認(rèn)識(shí)中世紀(jì)手寫拉丁文
“以后青銅銘文也交給 AI 來(lái)識(shí)別好了!”
AI 識(shí)別文字已經(jīng)不算是什么難事,但是如果字體是手寫,而且還是古文呢?
這似乎聽(tīng)起來(lái)具有相當(dāng)?shù)碾y度!
梵蒂岡秘密檔案館(Vatican Secret Archives)可謂全球最偉大的歷史藏品之一,但其珍藏的許多文件從未轉(zhuǎn)錄。近日,一個(gè)名為 Codice Ratio 項(xiàng)目,利用人工智能與光學(xué)字符識(shí)別(簡(jiǎn)稱 OCR)軟件的組合重現(xiàn)這些被忽視的文本,并將其重新呈現(xiàn)在世人面前。
這座恢宏的建筑坐落在梵蒂岡城墻之內(nèi),毗鄰使徒圖書館、位于西斯廷大教堂北側(cè),擁有著可追溯于1200年之前的總長(zhǎng)達(dá)53英里的書架。除了將Martin Luther逐出教會(huì)的《教皇詔書》之外,其中還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。在規(guī)模與范圍方面,其中的收藏幾乎著稱無(wú)與倫比。
然而,梵蒂岡秘密檔案館對(duì)現(xiàn)代學(xué)者卻沒(méi)多大現(xiàn)實(shí)意義。因?yàn)樵谶@長(zhǎng)達(dá)53英里的書架當(dāng)中,只有極少數(shù)書頁(yè)經(jīng)過(guò)掃描以提供在線版本,這當(dāng)中的一小部分轉(zhuǎn)錄為計(jì)算機(jī)文本以供內(nèi)容搜索。如果我們打算閱讀其它任何內(nèi)容,則必須申請(qǐng)?zhí)厥獾脑L問(wèn)權(quán)限,一路前往羅馬,并親自動(dòng)手翻開(kāi)這些古籍。
傳統(tǒng) OCR 技術(shù)只適用于經(jīng)過(guò)嚴(yán)格排版的文字,而對(duì)于字母之間缺少間隔空間(即臟分割)的手寫卷宗形式則無(wú)法識(shí)別。對(duì)此, Codice Ratio 項(xiàng)目利用拼圖分割法將單詞理解為一種單筆筆劃,軟件只需要知曉哪些組塊代表真實(shí)的字母,而哪些只是連筆造成的假象即可。該軟件的手寫字母判斷準(zhǔn)確率已經(jīng)高達(dá)96%。如果成功,這項(xiàng)技術(shù)還將被用于處理世界各地其它歷史檔案庫(kù)當(dāng)中數(shù)不勝數(shù)的其它記錄文件。
利用拼圖分割法讓 OCR 識(shí)別連體字
由于傳統(tǒng)OCR技術(shù)是把單詞分割成一個(gè)個(gè)字母來(lái)識(shí)別的,所以對(duì)于這類連體字,OCR無(wú)法識(shí)別字母。有人想出了一個(gè)方案,直接讓OCR去識(shí)別一個(gè)個(gè)的單詞,但是,如何讓OCR掌握成千上萬(wàn)的拉丁文單詞呢?大概需要一個(gè)排的中世紀(jì)拉丁文專家來(lái)辨認(rèn)不同單詞的圖形。
除了請(qǐng)專家辨認(rèn)單詞外,還有更簡(jiǎn)單的方法幫助OCR識(shí)別手寫字母,只要找實(shí)習(xí)生就可以搞定了。
我們知道,無(wú)論中文還是英文,連體字中粗的部分是筆畫,細(xì)的部分是筆尖移動(dòng)造成的虛線,并不是筆畫的一部分。根據(jù)這個(gè)原則,In Codice Ratio的專家們發(fā)明了新的方法——拼圖分割法。拼圖分割法改變了傳統(tǒng)OCR把單詞分成字母的傳統(tǒng)方式,而是是把連在一起的單詞按照筆畫分隔開(kāi),在此之后,該軟件會(huì)進(jìn)一步進(jìn)行字母繪制,并最終生成以下一系列拼圖碎片:
這些拼圖碎片本身作用不大,但該軟件能夠?qū)⑵渫ㄟ^(guò)多種方式組合起來(lái)以生成可能的字母。具體來(lái)講,軟件只需要知曉哪些組塊代表真實(shí)的字母,而哪些只是連筆造成的假象即可。
為了教會(huì)軟件這項(xiàng)能力,研究人員們選擇了不同尋常的導(dǎo)師——高中生。該團(tuán)隊(duì)在意大利的24所學(xué)校當(dāng)中招募了一批高中生用于建立項(xiàng)目的記憶庫(kù)。學(xué)生們?cè)诘卿浵嚓P(guān)網(wǎng)站后,會(huì)看到如下圖所示的三分屏幕界面:
之后,就要讓識(shí)別系統(tǒng)判斷對(duì)錯(cuò):識(shí)別出的字母,哪些是真正的字母,哪些是虛線的誤判。
通過(guò)一次次點(diǎn)擊,學(xué)生們努力教授該軟件如何識(shí)別22個(gè)中世紀(jì)拉丁字母(a-i,l-u,以及s與d的某些替代形式)。 22個(gè)中世紀(jì)拉丁文字母都學(xué)會(huì)之后,這個(gè)識(shí)別系統(tǒng)就成為了一個(gè)能認(rèn)識(shí)手寫體中世紀(jì)拉丁文的AI。
當(dāng)然,最終學(xué)生們也不再需要參與其中。當(dāng)訓(xùn)練進(jìn)行到一定階段之后,該軟件即可獨(dú)立拼圖,并自行判斷字母的具體位置。這,正是人工智能的價(jià)值所在。
在另一方面,這也證明單靠拼圖碎片還不足以組合出正確的字母。計(jì)算機(jī)仍然需要額外的幫助才能破解手寫文本的秘密。想象一下,大家正在讀信,并在其中看到下面這句:
中間的單詞到底是“clear”還是“dear”?很難判斷,因?yàn)椤癲”與“cl”的筆畫構(gòu)成實(shí)際上完全相同。OCR軟件也面臨著同樣的問(wèn)題,特別是在處理高度風(fēng)格化的文本時(shí)更是如此。以下圖為例:
在經(jīng)過(guò)不同的拼圖組合之后,OCR認(rèn)為可能的選項(xiàng)包括aimo、amio、aniio、aiino甚至是aiiiio。但這個(gè)詞實(shí)際上是anno,也就是拉丁語(yǔ)中的年。該軟件認(rèn)準(zhǔn)了a和o,但卻弄不清中間的四個(gè)豎到底該如何劃分。
為了解決這個(gè)問(wèn)題,Codice Ratio團(tuán)隊(duì)不得不為自己的軟件提供一些常識(shí)性的知識(shí)。他們建立起一套包含150萬(wàn)個(gè)經(jīng)過(guò)數(shù)字化的拉丁詞匯語(yǔ)料庫(kù),并對(duì)其中的雙字母與三字母組合進(jìn)行了檢查。通過(guò)這種方式,他們確定了哪些字母組合較為常見(jiàn),而哪些永遠(yuǎn)不會(huì)出現(xiàn)。通過(guò)將這些統(tǒng)計(jì)信息提供給OCR軟件,其能夠了解到不同字符串的具體出現(xiàn)概率,從而意識(shí)到nn比iiii的可能性高得多。
隨著這樣的改進(jìn),OCR終于能夠自行閱讀部分文本了。該團(tuán)隊(duì)決定為其提供一些來(lái)自梵蒂岡秘密歸案館的資料。這是一份超過(guò)18000頁(yè)的檔案集合,其中包括寫給歐洲國(guó)王的信件、關(guān)于法律問(wèn)題的裁決以及其它信件。
最初的結(jié)果有好有壞。在迄今為止的全部轉(zhuǎn)錄文本中,有三分之一文檔中包含一處或多處拼寫錯(cuò)誤——意味著OCR作出了錯(cuò)誤的判斷。然而,該軟件仍然帶來(lái)了高達(dá)96%的手寫字母判斷準(zhǔn)確率。Merialdo表示,即使是“不完美的轉(zhuǎn)錄結(jié)果,亦可提供關(guān)于手稿內(nèi)容及背景的大量有價(jià)值信息!
經(jīng)過(guò)對(duì)AI更專業(yè)的訓(xùn)練后,它可以識(shí)別各大文明的古代文獻(xiàn)并電子化。
所以,為了給AI提升難度,青銅銘文了解一下?
梵蒂岡秘密檔案館(Vatican Secret Archives):由教皇保羅五世(Pope Paul V)主導(dǎo)創(chuàng)立,是歐洲教會(huì)中收藏檔案最豐富,最古老的檔案館。梵蒂岡秘密檔案館擁有著可追溯于1200年之前的總長(zhǎng)達(dá)53英里的書架,其中保存著各種古籍、歷史事件檔案、教皇的私人信件以及一些有關(guān)超自然現(xiàn)象和神秘學(xué)的資料。梵蒂岡秘密檔案館收錄了許多重要史料,除了將 Martin Luther 逐出教會(huì)的《教皇詔書》之外,還包括蘇格蘭瑪麗女王被處決之前發(fā)給教皇西克斯五世的函件。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來(lái)的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋果”?
- 4 華為公布昇騰芯片三年計(jì)劃,自研HBM曝光
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 7 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 8 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 9 美光:AI Capex瘋投不止,終于要拉起存儲(chǔ)超級(jí)周期了?
- 10 華為已殺入!AI領(lǐng)域最熱黃金賽道,大廠的數(shù)字人美女讓我一夜沒(méi)睡著覺(jué)