誰在橢圓形辦公室發(fā)推:機器學習揭露川普推文的真實作者
你是否好奇,名人在社交網絡上發(fā)的消息,哪些是自己寫的,哪些是工作人員寫的呢?Coursera數據科學社區(qū)導師(Community Mentor)Greg Rafferty使用機器學習技術分析了川普的推文,預測哪些推文是川普親自發(fā)的,哪些推文是工作人員所發(fā)。
我創(chuàng)建了一個推特機器人@whosintheoval,這個機器人會轉推唐納德·川普的推特,然后預測這條推是否是川普本人所寫。在閱讀下文了解我是如何創(chuàng)建模型的之前,別忘了在推特上關注這個機器人。
我是Greg Rafferty,灣區(qū)的一個數據科學家。你可以在我的github上查看這個項目的代碼,也可以訪問我的LinkedIn頁面。有任何疑問和反饋,都歡迎和我聯系。
動機
2017年12月1日,邁克爾·弗林(Michael Flynn)承認向FBI撒謊了。12月3日,川普的個人推特賬號發(fā)了這樣一條推:
由于弗林向副總統(tǒng)和FBI說謊,我不得不解雇了他。他已經對這些謊言認罪。這真可恥,因為他在過渡期間的行為是合法的。沒什么好隱瞞的!
這條推引起了很大的爭議,因為在這一年的2月14日,在弗林辭職之后,川普曾要求FBI局長詹姆斯·科米(James Comey)停止對弗林的所有調查。如果川普在向科米要求時已經知道弗林確實向FBI說謊了,那么川普的推特是川普試圖妨礙司法的證據。在若干法律專家主張這一觀點之后,川普為自己辯護,聲稱撰寫并發(fā)布這條推的是他的律師約翰·多德(John Dowd)。然而,果真如此嗎?
介紹
本文分為四部分:
背景
特征選取
模型
結果
當中的兩小節(jié)(特別是模型那一節(jié))技術性比較強;所以如果你對此不感興趣,可以直接跳到結果一節(jié),看看到底是誰發(fā)了關于弗林的那條推。
背景
文本分析取證是一門“古老的”機器學習技術,在各種各樣的案例中得到應用,比如識別大學炸彈客(Unabomber),發(fā)現羅伯特·加爾布雷斯(Rob Galbraith)是J·K·羅琳(J. K. Rowling)的筆名,確定《聯邦黨人文集》中特定文章的歸屬。我們這個項目嘗試使用這一機器學習技術識別@realDonaldTrump所發(fā)的推是否是川普本人所寫。然而,這一任務比較特別,非常具有挑戰(zhàn)性,因為推文都非常短——在如此短的文本中沒有太多的信號可供分析。不過,我最終還是成功了,精確度幾乎達到了99%. 你可以關注我的推特機器人@whosintheoval,這樣一旦川普發(fā)推,你就可以實時查看相應的預測。
數據
2017年3月26日之前,川普使用三星Galaxy發(fā)推而他的工作人員使用iPhone發(fā)推。基于這些推文的元數據,我們可以知道是川普本人還是他的工作人員在發(fā)推(參考這些具體討論這一假設的文章的鏈接)。在此之后,川普轉而使用iPhone,因此發(fā)推者的身份無法基于元數據得出,需要通過推文內容推斷。
我使用了Brendan Brown的Trump Tweet Data Archive(川普推文數據歸檔),得到了川普賬號在2009年中至2017年末所發(fā)的所有推文,約有33000條。盡管我知道推文來自于哪個設備,作者身份仍有一些模棱兩可,因為人們知道川普有時會向助理口述發(fā)推內容,因此一條具有川普特色的推文可能發(fā)自非川普所有的設備,同時(特別是大選期間)推文可能是由川普和助手們共同撰寫的,沒有明確的作者。
川普推特賬號從開始(2009年5月4日)至停止使用Android設備(2017年初)的超過30000條推文我知道(至少有比較大的把握能猜到)作者(關鍵在于,關于弗林的推文不在這一期間,所以我讓我的模型猜測真正的發(fā)推者——本文之后的結果一節(jié)會更多地討論這個)。這30000條推文基本上是在Android和非Android設備間均勻分布的(47%/53%),所以不用擔心類別失衡問題。這是我用的訓練數據。使用若干不同的技術,我基于數據創(chuàng)建了將近900個不同的特征,我的模型可以使用這些特征預測作者。
選擇特征
我查看了六方面的特征以建立模型:
川普的癖好
風格
情感
情緒
遣詞
語法結構

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業(yè)年度評選
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業(yè)大會
-
10 大模型的盡頭是開源
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時代,阿里云想當“安卓” ,那誰是“蘋果”?
- 4 硬剛英偉達!華為發(fā)布全球最強算力超節(jié)點和集群
- 5 機器人9月大事件|3家國產機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 6 谷歌“香蕉”爆火啟示:國產垂類AI的危機還是轉機?
- 7 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 8 美光:AI Capex瘋投不止,終于要拉起存儲超級周期了?
- 9 華為已殺入!AI領域最熱黃金賽道,大廠的數字人美女讓我一夜沒睡著覺
- 10 隱退4年后,張一鳴久違現身!互聯網大佬正集體殺回