123,123,123

Ilya Sutskever —— AI最偉大的“推動者”，也是其最深刻的“對峙者”

2025-12-08 15:10

2025年11月26日，Safe Superintelligence (SSI) 創(chuàng)始人、前 OpenAI 首席科學家伊利亞·蘇茨克維（Ilya Sutskever）在接受知名科技播客主持人德瓦克什·帕特爾（Dwarkesh Patel ）訪談節(jié)目中，又做出了震驚業(yè)界的預(yù)判：“那個單純依賴數(shù)據(jù)和算力堆疊的‘Scaling Law（2020-2025年）時代’已經(jīng)結(jié)束，我們正重新回歸到一個需要探索全新算法與數(shù)據(jù)配方的‘研究時代’。”

Ilya Sutskever（左）和Dwarkesh Patel （右）

并且，在2024年的NeurIPS 會議演講中，他就提出了類似的結(jié)論：預(yù)訓練依賴于海量數(shù)據(jù)，而互聯(lián)網(wǎng)數(shù)據(jù)存在上限，預(yù)訓練時代終將結(jié)束。

預(yù)訓練時代即將結(jié)束（2024年NeurIPS 會議演講PPT）

這一預(yù)判之所以極具分量，并引發(fā)業(yè)界廣泛深思和討論，是因為Ilya Sutskever 恰恰是在十幾年前就一直堅信“Scaling Law”定律，并在后來親自在GPT-3模型上成功證明給世界看的那個男人。

甚至可以說，Ilya Sutskever已經(jīng)將“Scaling Law”變成了業(yè)界的一種思維范式，并被許多人奉為圭臬。然而，正是這位“Scaling Law”最有力的證明者，如今開始洞察到它的局限性并提出了新的思考。

然而，這一深刻的洞察和預(yù)判，并非Ilya Sutskever立場的動搖，實則是其思維特質(zhì)的必然體現(xiàn)：他始終依循一套深刻的“自上而下”的信念體系來推演技術(shù)未來。

Ilya Sutskever信念體系的核心是追求對“智能本質(zhì)”的正確理解，而非盲從任何具體技術(shù)。他早期對Scaling Law的堅信，源于他認為“擴大規(guī)模”是觸及智能本質(zhì)的正確方向。

當Scaling Law發(fā)展到極致，他觀察到模型出現(xiàn)了無法用“擴大規(guī)模”來解決的根本性矛盾：卓越的基準測試表現(xiàn)與脆弱的真實世界泛化能力之間的巨大脫節(jié)。這背離了他對“真正智能”的理解。

此時，Ilya Sutskever“自上而下”的思維特質(zhì)開始發(fā)揮作用。他不會為了維護舊有路徑而忽視根本矛盾，而是根據(jù)更高層級的信念（“何為真正的智能”）來重新評估當前路徑。這促使他轉(zhuǎn)向?qū)で笮碌�、更接近智能本質(zhì)的研究范式。故而，最近他又得出新結(jié)論：單純依賴擴大規(guī)模的Scaling Law路徑正在觸及天花板，而與之結(jié)合的主流強化學習方法不僅算力消耗巨大，更在實現(xiàn)真正的智能泛化上存在本質(zhì)缺陷。

Ilya Sutskever被廣泛視為一位擁有罕見“研究者品位”的純粹科學家，兼具卓越的工程直覺與深刻的哲學思維方式。正如其導師杰弗里·辛頓（Geoffrey Hinton）所評價，他擁有“驚人的原始直覺”，且從不輕信，總是致力于將新信息融入自身堅實的世界觀框架中。

這種深刻的頂級贊譽，不禁讓人對Ilya Sutskever 產(chǎn)生了濃厚興趣。接下來，我們將追溯他的成長與求索之路，以期更深入地理解這位始終能夠站在AI技術(shù)浪潮之巔，凝視著更遠未來的思想者。

一、學術(shù)深耕（2003-2013）：叩開AI大門，拜師 "深度學習教父" 辛頓

Ilya Sutskever1986年12月出生于俄羅斯下諾夫哥羅德（原前蘇聯(lián)的高爾基市），5歲隨家人移民以色列，16歲遷居到加拿大，并在多倫多大學開啟求學之路。

他先后獲多倫多大學數(shù)學學士（2005 年）、計算機科學碩士（2007年）及博士學位（2013）。在多倫多大學的求學之路，為Ilya Sutskever未來在AI領(lǐng)域的深耕奠定了堅實基石。

而這段學術(shù)生涯中，最具轉(zhuǎn)折意義的，是他與"深度學習之父" 杰弗里辛頓的相遇。據(jù)說，早在 2003 年，還是本科低年級學生的Ilya Sutskever，因?qū)ι窠?jīng)網(wǎng)絡(luò)的癡迷，鼓起勇氣主動敲響了辛頓辦公室的大門。這份純粹的求知欲與初生牛犢的勇氣，打動了這位學術(shù)泰斗，兩人自此開啟了深度合作的師徒情誼。

學生時期的Ilya Sutskever，其最具標志性的成果莫過于點燃了深度學習革命的AlexNet。

2012年，仍在杰弗里·辛頓教授指導下攻讀博士學位的Ilya Sutskever與同門師兄弟Alex Krizhevsky（亞歷克斯·克里熱夫斯基）合作，在辛頓教授的整體指導下，共同開發(fā)了劃時代的深度卷積神經(jīng)網(wǎng)絡(luò)——AlexNet。

Alex Krizhevsky是網(wǎng)絡(luò)架構(gòu)的主要設(shè)計者與實現(xiàn)者。而Ilya Sutskever的核心貢獻在于工程實現(xiàn)，他編寫了高度優(yōu)化的GPU代碼，并親自采購和搭建了由多塊GTX 580 GPU組成的計算系統(tǒng)，為訓練龐大的AlexNet提供了至關(guān)重要的算力基礎(chǔ)。

最終，AlexNet在2012年ImageNet圖像識別競賽中以壓倒性優(yōu)勢奪冠，其成績遠超傳統(tǒng)方法。這一勝利被公認為深度學習革命的起點，徹底扭轉(zhuǎn)了學界對神經(jīng)網(wǎng)絡(luò)的懷疑態(tài)度，并開啟了人工智能的新時代。

二、谷歌時期（2013-2015）：重塑NLP與機器學習基礎(chǔ)

2012年底，在AlexNet取得突破性成功之后，杰弗里·辛頓教授與他的兩位研究生Ilya Sutskever和Alex Krizhevsky共同創(chuàng)立了DNNResearch公司。成立之初，這家公司既無實際產(chǎn)品，也沒有生產(chǎn)計劃，其核心資產(chǎn)正是這三位深度學習先驅(qū)的頂尖才智與專有技術(shù)。

為最大化公司價值，杰弗里·辛頓為其創(chuàng)辦的公司開展了一場小型競價交易。該活動迅速吸引了當時對AI前沿最為敏銳的四方力量：谷歌、微軟、百度，以及當時尚未被谷歌收購的明星初創(chuàng)公司DeepMind。

最終，谷歌在2013年3月以約4400萬美元的價格勝出，完成了對DNNResearch的收購。此舉被廣泛視為一場經(jīng)典的“人才收購”。

通過此次收購，谷歌獲得了該團隊在深度學習領(lǐng)域的專有技術(shù)。同時，辛頓教授以顧問身份為谷歌提供指導，而Ilya Sutskever和 Alex Krizhevsky則作為全職員工加入。其中，Ilya Sutskever被任命為谷歌大腦（Google Brain）團隊的研究科學家。

在Google Brain期間，Ilya Sutskever分別主導和深度參與了兩項影響深遠的重大項目：一項革新了自然語言處理的核心框架，另一項則為整個AI社區(qū)奠定了工程基礎(chǔ)。

1）Seq2Seq：突破序列建模的范式革命

在Seq2Seq出現(xiàn)之前，神經(jīng)網(wǎng)絡(luò)處理像翻譯這樣的任務(wù)非常棘手，因為模型要求輸入和輸出必須是固定長度。2014年，Ilya Sutskever與Oriol Vinyals（奧里奧爾·維尼亞爾斯）和Quoc Viet Le合作開發(fā)了序列對序列（Seq2Seq）學習算法。

該算法的核心創(chuàng)新在于其編碼器-解碼器架構(gòu)：編碼器神經(jīng)網(wǎng)絡(luò)將任意長度的輸入序列壓縮成一個固定維度的上下文向量（語義摘要）；解碼器則以該向量為初始狀態(tài)，結(jié)合每一步已生成的內(nèi)容，自回歸地逐詞生成目標序列，從而首次實現(xiàn)了端到端的變長序列轉(zhuǎn)換。

Seq2Seq擺脫了傳統(tǒng)方法對 “固定長度輸入/輸出” 的限制，并通過 “隱藏狀態(tài)” 傳遞輸入序列的語義信息，為后續(xù)神經(jīng)模型處理復雜序列任務(wù)提供了核心框架。

2）TensorFlow：奠定深度學習的工程范式

TensorFlow是Google Brain團隊于2015年推出的開源機器學習框架。TensorFlow的推出，將強大的機器學習能力變成了易用的工具。它讓全球的研究者和工程師能更輕松地構(gòu)建、訓練和部署包括Seq2Seq在內(nèi)的復雜模型，極大地加速了AI技術(shù)的民主化和工業(yè)化進程。

Ilya Sutskever作為Google Brain的研究科學家，是該項目早期的深度參與者與重要貢獻者。比如，谷歌在2016年發(fā)表的關(guān)于TensorFlow的核心系統(tǒng)論文《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems》中，Ilya Sutskever就是核心作者之一。

三、OpenAI 時期（2015-2024）：Open AI 背后的“真正大腦”

1. 聯(lián)合創(chuàng)立Open AI ，并擔任首席科學家

2015年底，Ilya Sutskever做出了一個令業(yè)界矚目的決定：放棄谷歌的高薪職位，與Elon Musk（埃隆·馬斯克）、Sam Altman（薩姆·奧爾特曼）、Greg Brockman（格雷格·布羅克曼）等人共同創(chuàng)立了OpenAI，并擔任首席科學家。

Ilya Sutskever離開谷歌、選擇共同創(chuàng)立OpenAI，是一個由清晰信念驅(qū)動的決定。他旨在建立一個“技術(shù)不被壟斷” 的平臺，根本目標是確保強大的人工智能能夠以安全、負責任的方式發(fā)展，最終造福全人類。

故而，OpenAI自創(chuàng)立之初便確立了 “非營利組織” 的根本性質(zhì)，這正是Sutskever理念的制度化體現(xiàn)：將對人類整體的責任置于商業(yè)利益之上。

然而，也正是這種對AI安全與公益的不可妥協(xié)的堅持，與Sam Altman所代表的、更側(cè)重技術(shù)迭代與市場應(yīng)用的發(fā)展路徑之間，產(chǎn)生了必然的張力，成為他與Sam Altman日后公開分歧的深層根源。

2. 主導了GPT-1/2/3以及DALLE系列模型的研發(fā)

作為OpenAI的聯(lián)合創(chuàng)始人兼首席科學家，Ilya Sutskever是驅(qū)動GPT系列從概念變?yōu)楝F(xiàn)實的最高技術(shù)領(lǐng)導者與核心架構(gòu)決策者。在他的領(lǐng)導下，OpenAI完成了一系列標志性的模型迭代：

GPT-1（2018年）：是GPT系列乃至生成式預(yù)訓練語言模型的奠基之作。它首創(chuàng)了 “無監(jiān)督預(yù)訓練 + 有監(jiān)督任務(wù)微調(diào)” 的兩階段范式：首先在海量無標注文本上通過預(yù)測下一個詞進行預(yù)訓練，掌握通用語言規(guī)律；然后針對不同的下游任務(wù)（如文本分類、問答等）使用少量標注數(shù)據(jù)進行微調(diào)。這一范式使單一模型在多項自然語言理解任務(wù)上取得了突破性進展，為后續(xù)發(fā)展奠定了核心方法論基礎(chǔ)。

GPT-2（2019年）：作為GPT-1的突破性迭代，其參數(shù)規(guī)模提升至15億（1.5B），并使用了更大的WebText數(shù)據(jù)集進行訓練。它首次通過大規(guī)模實驗證明：僅通過“預(yù)測下一個詞”訓練的語言模型，無需微調(diào)就能在零樣本下執(zhí)行翻譯、問答等多種任務(wù)，從而確立了“語言模型即通用任務(wù)求解器”的新范式，為后續(xù)的規(guī)模擴展研究奠定了基礎(chǔ)。

GPT-3（2020年）：是大語言模型發(fā)展史上的一個里程碑。它在規(guī)模和性能上實現(xiàn)了質(zhì)的飛躍：擁有1750億個參數(shù)，使用高達45TB的數(shù)據(jù)進行訓練。GPT-3的成功確立了Scaling Law的核心路徑，直接催生了“提示工程”的興起，并引發(fā)了業(yè)界對AI能力邊界及其社會影響的深刻思考。

DALL-E 1（2021）：是一個由AI驅(qū)動的圖像生成模型。它并非GPT的衍生品，而是同樣基于Transformer核心思想，在架構(gòu)上進行了關(guān)鍵創(chuàng)新，將文本和圖像統(tǒng)一表示為離散標記，并使用一個自回歸Transformer模型對它們進行聯(lián)合建模與生成，首次證明了神經(jīng)網(wǎng)絡(luò)能夠從純文本描述直接生成復雜且富有創(chuàng)意的圖像。

ChatGPT (2022)：OpenAI推出的對話式人工智能系統(tǒng)。其核心技術(shù)是針對 GPT-3.5 模型進行專門優(yōu)化，以實現(xiàn)與人類意圖和價值觀的“對齊”。它取得突破的關(guān)鍵在于引入了 “基于人類反饋的強化學習” 訓練范式。該范式并非簡單的“微調(diào)”，而是一個包含三步驟的系統(tǒng)工程：1) 利用人類編寫的對話進行有監(jiān)督微調(diào)；2) 訓練一個模擬人類偏好的獎勵模型；3) 通過近端策略優(yōu)化算法，以獎勵模型為引導，大規(guī)模優(yōu)化語言模型。

GPT-4 (2023)：OpenAI 發(fā)布的第四代大規(guī)模多模態(tài)預(yù)訓練模型，標志著大模型在推理能力與跨模態(tài)交互上的范式級躍遷。它是 GPT 系列中首個支持文本與圖像雙輸入、并輸出精準文本的模型，具備深度跨模態(tài)推理能力 —— 既能解析圖表數(shù)據(jù)、識別圖像中的邏輯矛盾，也能理解漫畫的諷刺內(nèi)核與視覺幽默。同時，其在專業(yè)學術(shù)基準（如模擬律師考試躋身前 10%）、長文本處理（支持 2.5 萬字輸入）和多語言理解上取得了較大突破。

3. 領(lǐng)導“超級智能對齊”項目

2023年7月，OpenAI宣布成立“超級智能對齊”團隊，由Ilya Sutskever與Jan Leike共同領(lǐng)導。該項目設(shè)定了一個極其雄心勃勃的目標：在四年內(nèi)（2027年前），攻克如何確保比人類更聰明的超級人工智能系統(tǒng)與人類意圖保持一致的核心技術(shù)挑戰(zhàn)。

該項目團隊認為，目前依賴人類反饋的AI對齊技術(shù)（如RLHF）無法擴展到監(jiān)督超級智能。為此，團隊提出了一個關(guān)鍵的技術(shù)路徑：首先訓練一個“人類水平的自動對齊研究器”，然后利用這個AI研究器，輔以大量計算資源，去解決更高級別的超級智能對齊問題。OpenAI為此承諾投入其總計算資源的20%。

在Ilya Sutskever的理念中，控制AI的潛在風險優(yōu)先于其發(fā)展速度。他擔心AI能力增長遠超控制力，可能帶來不可預(yù)測的災(zāi)難性風險。這一安全至上的理念，與公司內(nèi)部追求快速產(chǎn)品迭代和商業(yè)化的壓力形成了根本性張力。

該項目的設(shè)立本身，即是對“在資本驅(qū)動下，長期安全研究可能被邊緣化”這一產(chǎn)業(yè)現(xiàn)實的前瞻性回應(yīng)。最終，這種理念上的沖突在2023年11月演變?yōu)楣_的董事會危機。

4. 逼宮CEO薩姆·奧爾特曼（Sam Altman）下臺

2023年11月，OpenAI爆發(fā)了震驚科技界的治理危機，其核心是首席科學家Ilya Sutskever與CEO Sam Altman在AI發(fā)展路線上的根本分歧。

以 Ilya Sutskever 為代表的部分董事會成員堅持，OpenAI 必須恪守非營利初心，將防范 AGI 的潛在風險、確保“通用人工智能造福全人類”作為首要使命，嚴防商業(yè)利益侵蝕核心目標；而 Sam Altman 一方則主張公司的當務(wù)之急是加速產(chǎn)品化、尋求巨額融資并持續(xù)投入研發(fā)，以在激烈的競爭中確保生存并維持技術(shù)領(lǐng)先地位。

2023年11月初，雙方的矛盾因一系列具體事件達到頂峰。Ilya Sutskever與當時的首席技術(shù)官Mira Murati （米拉·穆拉蒂）秘密合作，整理了一份長達數(shù)十頁的PDF備忘錄，詳細列舉了Sam Altman在多方面（包括產(chǎn)品安全審批流程、內(nèi)部基金歸屬等事務(wù)）對董事會“缺乏一貫坦誠”的證據(jù)，并通過“閱后即焚”郵件發(fā)送給三位獨立董事。

在獨立董事的支持下，董事會于2023年11月17日（公開宣布日）突然行動，以“溝通不坦誠”為由，投票罷免了Sam Altman的CEO職務(wù)，并解除了聯(lián)合創(chuàng)始人Greg Brockman（格雷格·布羅克曼）的董事會主席職務(wù)。這一決定由Ilya Sutskever和三位獨立董事（共4票）做出，Sam Altman和Greg Brockman投了反對票（共2票）。

Sam Altman被罷免引發(fā)了公司內(nèi)外的海嘯。超過95%（超過700名）的OpenAI員工簽署聯(lián)名信，威脅董事會去請回Sam Altman，否則他們將集體加入微軟。以微軟為首的主要投資方也施加了巨大壓力。

面對公司即將分崩離析的局面，Mira Murati和整個高管團隊迅速倒戈，站到了Sam Altman一邊。在巨大壓力下，Ilya Sutskever于11月20日在社交平臺公開表示“對自己參與董事會行動深感后悔”，并簽署了員工聯(lián)名信。

經(jīng)過數(shù)日激烈談判，Sam Altman于2023年11月21日成功回歸，條件是徹底重組董事會，除Adam D’Angelo外的所有原董事（包括其他獨立董事和Ilya Sutskever）均退出了董事會。

Sam Altman回歸后，董事會進行重組

回歸后，Sam Altman鞏固了權(quán)力，組建了以商業(yè)領(lǐng)袖為主的新董事會，并加速了商業(yè)化進程。而Ilya Sutskever雖然保留了“首席科學家”頭銜，但已被徹底邊緣化，最終于2024年5月正式從OpenAI離職。

四、SSI時期（2024 - 至今）：AI安全的堅定踐行者

Ilya Sutskever離開OpenAI后，并于2024 年 6 月與 Daniel Gross（蘋果前AI高管、Y-Combinator的合伙人）和 Daniel Levy （前OpenAI技術(shù)團隊成員）共同創(chuàng)立公司Safe Superintelligence Inc（簡稱SSI）。

公司的使命非常純粹且唯一：直接開發(fā)安全的超級智能，并明確表示，公司不會受到產(chǎn)品周期或短期商業(yè)壓力的干擾。

SSI創(chuàng)立早期，公司采用高度聚焦的精英模式，團隊僅有約10名員工，在加州帕洛阿爾托和以色列特拉維夫設(shè)有辦公室。

成立約3個月后，SSI于2024年9月初宣布完成10億美元的現(xiàn)金融資，估值超過50億美元。投資者包括紅杉資本、a16z、DST Global、SV Angel、NFDG等頂級風投。到2025年4月，SSI在完成20億美元融資后，估值已飆升至320億美元。

然而，在2025年6月底，聯(lián)合創(chuàng)始人兼CEO Daniel Gross 被Meta挖走，離開了SSI。Ilya Sutskever隨即宣布親自接任CEO，并表示SSI拒絕了Meta的收購，將繼續(xù)專注于原有使命。

原文標題 : Ilya Sutskever —— AI最偉大的“推動者”，也是其最深刻的“對峙者”