123,123,123

阿里，全球第一�。。�

2024-06-28 09:36

近日，全球著名開源平臺HuggingFace（笑臉）聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem在社交平臺宣布，阿里最新開源的Qwen2-72B指令微調(diào)版本衛(wèi)冕冠軍，繼續(xù)位列全球開源模型排行榜第一名。

在OpenAI拒絕中國開發(fā)者的當(dāng)口，這個(gè)“第一名”來得非常及時(shí)。

第一，中國開發(fā)者從OpenAI集體“回家”，國內(nèi)大模型供應(yīng)商紛紛推出遷移方案迎接。雷科技在《OpenAI拒絕中國開發(fā)者，“百模大戰(zhàn)”全面進(jìn)入下半場》一文已盤點(diǎn)，超過10家大模型供應(yīng)商推出各種服務(wù)來“搶客”。

不過，在很多人固有印象中，中國大模型供應(yīng)商只是“平替版本”，是實(shí)在沒得用了，勉強(qiáng)能用的。甚至還有人說GPT是高鐵，國產(chǎn)大模型就是拖拉機(jī)，雖然都能跑，但其實(shí)不一樣。

其實(shí)這是偏見，在很多領(lǐng)域，國內(nèi)大模型都已經(jīng)具有世界級競爭力了，特別是開源大模型。

什么叫具備世界級競爭力的大模型？這里分兩種：

一種是每次發(fā)布會都號稱全面碾壓GPT4的玩家，參數(shù)沒輸過，評測沒贏過，這是自賣自夸，自吹自擂。

還有一類，是在權(quán)威榜單上拿到名次的。HuggingFace是全球最權(quán)威的開源模型榜單，它給阿里云的Qwen2“正名”，或者說給了“權(quán)威認(rèn)證”。

第二，為什么HuggingFace能做全球最權(quán)威的開源模型榜單？

為什么HuggingFace能做全球最權(quán)威的開源模型榜單？這個(gè)定義不是隨便給的，而是跟這個(gè)平臺的背景有關(guān)系。HuggingFace不是大模型供應(yīng)商，而是全球最受歡迎的大模型和數(shù)據(jù)集開源社區(qū)，開發(fā)者可以在這里獲取大模型開源代碼、獲取數(shù)據(jù)集進(jìn)行訓(xùn)練。可以說，做AI開發(fā)，基本繞不過HuggingFace，因此它也被稱為大模型/機(jī)器學(xué)習(xí)的GitHub。

也就是說，HuggingFace更像是一個(gè)大模型的應(yīng)用、分發(fā)、發(fā)布平臺。包括微軟、Facebook、特斯拉等等巨頭的大模型，都會在HuggingFace主發(fā)布。比如在前段時(shí)間的微軟Build大會，納德拉就宣布微軟在 Huggingface 上發(fā)布了 Phi-3-medium，Phi-3-small，以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消費(fèi)級硬件上可用的最好模型。

有海量開源大模型以及數(shù)據(jù)集，有海量AI開發(fā)者以及使用數(shù)據(jù)，因此HuggingFace可以做出行業(yè)最權(quán)威的開源模型榜單。這跟媒體或者專門的第三方評測機(jī)構(gòu)做的榜單有本質(zhì)不同。很多評測榜單源自這樣的“第三方”，姑且不說權(quán)威性、客觀性、中立性，恐怕專業(yè)性也會大打折扣。

好了，說清楚HuggingFace榜單的權(quán)威性后，我們再看阿里云的Qwen2有多強(qiáng)？

第三，為什么HuggingFace 6月兩次發(fā)榜？榜單V2意義在哪里？

其實(shí)今年6月7日，HuggingFace也發(fā)過一次榜單，當(dāng)時(shí)第一也是Qwen2。為什么要更新榜單到V2呢？HuggingFace說是，“榜單內(nèi)的測試集，更難、更好、更快、更強(qiáng)（Harder, better, faster, stronger）。”因此，對模型的考察也更有說服力。

其實(shí)對大模型基于測試數(shù)據(jù)集進(jìn)行評測的過程，形象點(diǎn)說就是“做題考分”，跟我們考試一樣。但問題是，這個(gè)題目是開放的。因此就出現(xiàn)了一種情況：很多大模型會“刷題”，就是讓大模型先訓(xùn)練幾波，進(jìn)而拿到好的評測分?jǐn)?shù)，有的公司會雇傭人類“數(shù)據(jù)標(biāo)注員”來做題將答案給到大模型，還有的公司會讓GPT-4來答題再將答案用來訓(xùn)練自家大模型，大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4，玄妙正在于這里。

也就是說，開源評測數(shù)據(jù)集相當(dāng)于高考搞“開卷考試”一樣，除非是特別開放的問題（如職場面試），否則被試者完全可以提前針對性地刷題背答案，最終得分自然完全無法反映出其真實(shí)水平。

HuggingFace也在技術(shù)博文指出，“過去一年，Open LLM Leaderboard的基準(zhǔn)指標(biāo)已經(jīng)被過度使用，出現(xiàn)幾個(gè)問題：題目對模型來說變得太簡單；一些新近出現(xiàn)的模型出現(xiàn)數(shù)據(jù)污染跡象；有些測評基準(zhǔn)存在錯(cuò)誤。因此，平臺提出了更有挑戰(zhàn)性的V2榜單，基于未受污染、高質(zhì)量數(shù)據(jù)集的新基準(zhǔn)，運(yùn)用可靠的度量標(biāo)準(zhǔn)。”

好了，現(xiàn)在測試數(shù)據(jù)集（題目）大更新，最新的試卷、最新的考試，阿里云的Qwen2還是第一。也正是因?yàn)榇�，Huggingface聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem才會公開發(fā)文稱“Qwen2-72B是王者，中國在全球開源大模型領(lǐng)域處于領(lǐng)導(dǎo)地位。”如果沒有嚴(yán)格、充分的測試，他不可能公開進(jìn)行這樣的“點(diǎn)贊”。