寫在「文心一言」發(fā)布前夕
比當(dāng)然可以比,有什么不能比的。
文 / 書航 2023.3.15
這篇寫得非常急,因?yàn)檫^了 12 點(diǎn)還不推送,這些預(yù)測就發(fā)不出去了。但此前我一直打聽多方消息,到了這個(gè)時(shí)候,感覺把它們整理出來還是對(duì)大家有點(diǎn)用處。
百度從官宣有「文心一言」這么個(gè)東西到發(fā)布成品用了一個(gè)月多一點(diǎn),這件事本身并不稀奇。因?yàn)槲男囊谎院臀男拇竽P偷年P(guān)系就是 ChatGPT 和 GPT-3 的關(guān)系。
百度的大模型已經(jīng)訓(xùn)練很久了,做個(gè)前端應(yīng)用出來沒那么難。相信這一個(gè)月的時(shí)間里,絕大部分都是用在談商務(wù)合作,找人宣傳,內(nèi)部測試各種刁鉆古怪的用例,以及找 bug 上面。
百度的工具箱里不只有文心大模型,還有支撐它的底層技術(shù),包括它使用自研芯片來訓(xùn)練。BAT 均宣布了自研芯片用于內(nèi)部訓(xùn)練,百度對(duì)外宣布的「昆侖」已經(jīng)到第二代,采用 7nm 制程,同時(shí)也強(qiáng)調(diào)通用性。而第三代會(huì)在明年部署。
盡管百度也會(huì)將自己的各個(gè)模塊比如芯片層、框架層和模型層等分別拓展其對(duì)外兼容性和開發(fā)者生態(tài),但它依然認(rèn)為,都是自己家的東西協(xié)同起來,效果肯定好于一堆通用的方案拼起來的(我們倒是可以將華為的5G技術(shù)和OpenRAN陣營,或者x86、ARM陣營和RISC-V陣營之間的比較,作為這個(gè)觀點(diǎn)的證據(jù))。
今天 GPT-4 就發(fā)布了,但非常值得注意的是 OpenAI 這一次公布的技術(shù)細(xì)節(jié)少之又少,跟以前作為慷慨的服務(wù)于全人類的非盈利研究機(jī)構(gòu)的感覺大不一樣。這也說明如果某個(gè)東西真的是好東西,制作它的人不可能太慷慨。
所有人都在注視「中國的 ChatGPT」,放眼全球似乎也只有中國有機(jī)會(huì)在現(xiàn)在的時(shí)間點(diǎn)做出美國公司之外開發(fā)的競品。能做出來有這個(gè)東西,跟這東西是不是一樣的品質(zhì),是兩個(gè)不同的問題。
復(fù)旦做的 MOSS 發(fā)布倒是最早,但被罵的很慘。當(dāng)然作為學(xué)術(shù)實(shí)驗(yàn)項(xiàng)目,口碑不與未來的應(yīng)用前景關(guān)聯(lián),所以可能不是最重要的東西。真正要出產(chǎn)品的公司,其實(shí)都在猛打預(yù)防針,不斷降低國內(nèi)外關(guān)注者的心理預(yù)期。具體地說,就是先肯定自己現(xiàn)在一定是做不出 ChatGPT 這么好的效果,會(huì)出更多問題,會(huì)更笨拙。
比如,小冰前陣子說的「小冰鏈」的說辭是,在全功能但高成本、低效率的大模型中,拆出一部分可以快速商用的做成產(chǎn)品,可能加上一些人工調(diào)優(yōu),會(huì)比當(dāng)前的小冰模型更勝任聊天機(jī)器人等角色。即使不考慮類 GPT 的技術(shù),小冰此前也自主實(shí)現(xiàn)了其中一些用例,比如文章、圖片、視頻的生成,以及盡可能的多輪對(duì)話。這些已經(jīng)做出來的東西,其實(shí)也沒必要扔掉,反正外面看來都是在同一個(gè)黑箱里面。
那么,百度可能會(huì)怎樣說呢?如果我們?yōu)g覽百度的工具箱,可以發(fā)現(xiàn)除了芯片和全技術(shù)棧之外,還有一個(gè)東西很可能被忽略:知識(shí)圖譜。
目前我們知道的百度知識(shí)圖譜最新數(shù)據(jù)來自 2020 年,具體表述是「百度打造了世界上最大的多源異構(gòu)知識(shí)圖譜,擁有超過 50 億實(shí)體和 5500 億事實(shí),并在不斷演進(jìn)和更新,每天的調(diào)用次數(shù)超過 400 億次」。
在深度學(xué)習(xí)突飛猛進(jìn)的同時(shí),知識(shí)圖譜似乎已經(jīng)被人遺忘,也長久沒有進(jìn)展。然而此前一直有很多 AI 研究人員相信直接建立實(shí)體與事件的對(duì)應(yīng)關(guān)系,是讓「黑箱」變白,讓 AI 決策過程透明化的關(guān)鍵。當(dāng)然我們知道,截至目前這并沒有發(fā)生。
主要問題是建立知識(shí)圖譜的過程太讓人抓狂了。如果部分采用機(jī)器生成,那就可能產(chǎn)生錯(cuò)誤的對(duì)應(yīng)關(guān)系——就像百度有時(shí)候會(huì)在搜索框下面提取出的讓人啼笑皆非的「答案」。(谷歌也這樣。一個(gè)著名的例子是它把研究殺滅 WannaCry 勒索病毒的科學(xué)家標(biāo)注為了該病毒的作者。)
如果用人工來梳理——開什么玩笑,是吧?
但是現(xiàn)在,假設(shè) GPT 及同類技術(shù)可以產(chǎn)出符合倫理規(guī)范,符合邏輯,而且正確率高于商業(yè)應(yīng)用所需要的閾值的答案,那么這部分人類打標(biāo)簽的工作,包括標(biāo)記知識(shí)圖譜,以及清洗深度學(xué)習(xí)語料等工作,如果可以讓成熟的 GPT 自己內(nèi)循環(huán)的話,就不再是看起來不可能的任務(wù)了。
所以,即使中文的優(yōu)質(zhì)語料沒有英文那么多,也有可能通過成熟的 GPT 們代替人工清理過往的素材,核對(duì)和搭建知識(shí)圖譜,再喂進(jìn)去實(shí)現(xiàn)自我增強(qiáng)。當(dāng)然,這只是一種理論上的假設(shè)。
實(shí)際上,不論是否將知識(shí)圖譜,或其它現(xiàn)有資源融入文心大模型,現(xiàn)在我們已知它的問題就不算少了。在「文心一格」也就是畫圖應(yīng)用中,經(jīng)常出現(xiàn) prompt 不能正確認(rèn)知的情況,我或許可以在明天摸到「文心一言」的時(shí)候一起舉例說明。
但是,一個(gè)可能證明了他們將知識(shí)圖譜引入大模型的例子,是文心一格可以正確了解「米線」「佛跳墻」這些中國菜肴,它們翻譯過后可能產(chǎn)生歧義。相信百度會(huì)特別用力宣傳這方面的例子,因?yàn)樗鼈儎偝闪r(shí)侯的宣傳語就是「更懂中文」。
為了揚(yáng)長避短,避免在算力上正面交鋒,以上各種說法都是為了挽救一部分需要訓(xùn)練才能涌現(xiàn)的能力。涌現(xiàn)能力是 all or nothing,跟 ChatGPT 比了不行是意料之中的,如果有地方勝出,那就是意外收獲嘛。
國產(chǎn)目前就是從 me too 到 me better 的階段,比當(dāng)然可以比,MOSS 都可以比,有什么不能比的。這就是明天我們面對(duì)「文心一言」時(shí)候應(yīng)有的正確預(yù)期。
原文標(biāo)題 : 寫在「文心一言」發(fā)布前夕

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開發(fā)者大會(huì)深圳站
-
11月7日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
-
8 每日AI全球觀察
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 4 拐點(diǎn)已至!匯川領(lǐng)跑工控、埃斯頓份額第一、新時(shí)達(dá)海爾賦能扭虧為盈
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網(wǎng)大佬正集體殺回
- 7 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 8 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 9 機(jī)器人9月大事件|3家國產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 10 美光:AI Capex瘋投不止,終于要拉起存儲(chǔ)超級(jí)周期了?
- 生產(chǎn)部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結(jié)構(gòu)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 技術(shù)專家 廣東省/江門市
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)