阿里,全球第一。。
近日,全球著名開源平臺HuggingFace(笑臉)聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem在社交平臺宣布,阿里最新開源的Qwen2-72B指令微調版本衛(wèi)冕冠軍,繼續(xù)位列全球開源模型排行榜第一名。
在OpenAI拒絕中國開發(fā)者的當口,這個“第一名”來得非常及時。
第一,中國開發(fā)者從OpenAI集體“回家”,國內大模型供應商紛紛推出遷移方案迎接。雷科技在《OpenAI拒絕中國開發(fā)者,“百模大戰(zhàn)”全面進入下半場》一文已盤點,超過10家大模型供應商推出各種服務來“搶客”。
不過,在很多人固有印象中,中國大模型供應商只是“平替版本”,是實在沒得用了,勉強能用的。甚至還有人說GPT是高鐵,國產大模型就是拖拉機,雖然都能跑,但其實不一樣。
其實這是偏見,在很多領域,國內大模型都已經具有世界級競爭力了,特別是開源大模型。
什么叫具備世界級競爭力的大模型?這里分兩種:
一種是每次發(fā)布會都號稱全面碾壓GPT4的玩家,參數(shù)沒輸過,評測沒贏過,這是自賣自夸,自吹自擂。
還有一類,是在權威榜單上拿到名次的。HuggingFace是全球最權威的開源模型榜單,它給阿里云的Qwen2“正名”,或者說給了“權威認證”。
第二,為什么HuggingFace能做全球最權威的開源模型榜單?
為什么HuggingFace能做全球最權威的開源模型榜單?這個定義不是隨便給的,而是跟這個平臺的背景有關系。HuggingFace不是大模型供應商,而是全球最受歡迎的大模型和數(shù)據(jù)集開源社區(qū),開發(fā)者可以在這里獲取大模型開源代碼、獲取數(shù)據(jù)集進行訓練。可以說,做AI開發(fā),基本繞不過HuggingFace,因此它也被稱為大模型/機器學習的GitHub。
也就是說,HuggingFace更像是一個大模型的應用、分發(fā)、發(fā)布平臺。包括微軟、Facebook、特斯拉等等巨頭的大模型,都會在HuggingFace主發(fā)布。比如在前段時間的微軟Build大會,納德拉就宣布微軟在 Huggingface 上發(fā)布了 Phi-3-medium,Phi-3-small,以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消費級硬件上可用的最好模型。
有海量開源大模型以及數(shù)據(jù)集,有海量AI開發(fā)者以及使用數(shù)據(jù),因此HuggingFace可以做出行業(yè)最權威的開源模型榜單。這跟媒體或者專門的第三方評測機構做的榜單有本質不同。很多評測榜單源自這樣的“第三方”,姑且不說權威性、客觀性、中立性,恐怕專業(yè)性也會大打折扣。
好了,說清楚HuggingFace榜單的權威性后,我們再看阿里云的Qwen2有多強?
第三,為什么HuggingFace 6月兩次發(fā)榜?榜單V2意義在哪里?
其實今年6月7日,HuggingFace也發(fā)過一次榜單,當時第一也是Qwen2。為什么要更新榜單到V2呢?HuggingFace說是,“榜單內的測試集,更難、更好、更快、更強(Harder, better, faster, stronger)。”因此,對模型的考察也更有說服力。
其實對大模型基于測試數(shù)據(jù)集進行評測的過程,形象點說就是“做題考分”,跟我們考試一樣。但問題是,這個題目是開放的。因此就出現(xiàn)了一種情況:很多大模型會“刷題”,就是讓大模型先訓練幾波,進而拿到好的評測分數(shù),有的公司會雇傭人類“數(shù)據(jù)標注員”來做題將答案給到大模型,還有的公司會讓GPT-4來答題再將答案用來訓練自家大模型,大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4,玄妙正在于這里。
也就是說,開源評測數(shù)據(jù)集相當于高考搞“開卷考試”一樣,除非是特別開放的問題(如職場面試),否則被試者完全可以提前針對性地刷題背答案,最終得分自然完全無法反映出其真實水平。
HuggingFace也在技術博文指出,“過去一年,Open LLM Leaderboard的基準指標已經被過度使用,出現(xiàn)幾個問題:題目對模型來說變得太簡單;一些新近出現(xiàn)的模型出現(xiàn)數(shù)據(jù)污染跡象;有些測評基準存在錯誤。因此,平臺提出了更有挑戰(zhàn)性的V2榜單,基于未受污染、高質量數(shù)據(jù)集的新基準,運用可靠的度量標準。”
好了,現(xiàn)在測試數(shù)據(jù)集(題目)大更新,最新的試卷、最新的考試,阿里云的Qwen2還是第一。也正是因為此,Huggingface聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem才會公開發(fā)文稱“Qwen2-72B是王者,中國在全球開源大模型領域處于領導地位。”如果沒有嚴格、充分的測試,他不可能公開進行這樣的“點贊”。
期待以后HuggingFace的榜單可以升級更快,測試數(shù)據(jù)集可以更新更快,阿里云的Qwen2以及國產大模型可以繼續(xù)擁有更好的名次。
OpenAI不支持中國開發(fā)者,開源大模型廠商必須要快速精進,勇敢補位。現(xiàn)在,是國產大模型、國產開源大模型生態(tài)被倒逼加速進步的絕佳時機,也是證明自己的好時機。
原文標題 : 阿里,全球第一。!

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網行業(yè)年度評選
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網產業(yè)大會
-
10 每日AI全球觀察
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 4 拐點已至!匯川領跑工控、埃斯頓份額第一、新時達海爾賦能扭虧為盈
- 5 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 6 隱退4年后,張一鳴久違現(xiàn)身!互聯(lián)網大佬正集體殺回
- 7 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 8 谷歌“香蕉”爆火啟示:國產垂類AI的危機還是轉機?
- 9 機器人9月大事件|3家國產機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 10 美光:AI Capex瘋投不止,終于要拉起存儲超級周期了?
- 生產部總監(jiān) 廣東省/廣州市
- 資深管理人員 廣東省/江門市
- Regional Sales Manager 廣東省/深圳市
- 銷售總監(jiān) 廣東省/深圳市
- 結構工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 自動化高級工程師 廣東省/深圳市
- 技術專家 廣東省/江門市
- 激光器高級銷售經理 上海市/虹口區(qū)
- 封裝工程師 北京市/海淀區(qū)