跳去內容

GPT-2

出自維基百科,自由嘅百科全書

生成式預訓練轉換器2GPT-2)係OpenAI開發嘅大型語言模型,亦係佢哋GPT系列嘅第二代基礎模型。GPT-2用咗800萬個網頁數據集做預訓練[1],2019年2月部分開放,到同年11月5號正式全面推出15億參數嘅模型[2][3][4]

GPT-2被設計成GPT-1嘅「直接升級版」[5],參數量同訓練數據規模都係前代嘅十倍[4]。佢係個通用學習者,能夠翻譯答問題做摘要[6],甚至生成近乎人類水平嘅文章[7],不過寫長文時會出現重複或語無倫次嘅情況。而家已被GPT-3同GPT-4取代,後兩者已唔再開源。

呢個模型沿用生成式預訓練轉換器架構,採用深度神經網絡中嘅轉換器設計[5],用注意力機制取代傳統循環神經網絡同卷積結構[8][9]。注意力機制令模型可以專注於輸入文本中嘅關鍵部分[10][11],大幅提升並行計算效率,表現超越晒以往RNN/CNN/LSTM模型嘅基準[5]

訓練過程

[編輯]

轉換器架構嘅大規模並行特性令GPT模型可以用比舊式NLP模型更大嘅語料庫訓練。雖然GPT-1已證明呢種方法可行,但GPT-2進一步探索咗超大型語料訓練下嘅湧現現象。OpenAI曾考慮用CommonCrawl呢個網絡爬蟲整出嘅巨型語料[12],但發現太多無厘頭內容後決定自建新語料庫WebText——只爬取2017年12月前喺Reddit獲得至少3個讚好嘅貼文連結網頁[1],再清除重複頁同維基百科內容以防過度擬合[1]

訓練GPT-2每小時成本256美金[13][14],但總時長不明難以估算總開支[15]。對比同類模型,BERTXLNet分別使咗6,912同245,000美金[14]

發佈爭議

[編輯]

2019年2月14日公佈時,《The Verge》記者James Vincent讚佢係「最令人興奮嘅文本生成程式」[16],話俾個假標題佢就可以生成埋成篇假新聞,連假引述同數據都整到[16]。《衛報》形容佢啲輸出似「似模似樣嘅報章文章」[7]Vox記者Kelsey Piper仲話「呢個AI勁到可能搶埋我份工」[17]

限制性發放

[編輯]
即使係縮水版DistilGPT2,都寫到正反雙方對虛構產品「Skub」嘅似層層辯論。

OpenAI最初以「防止濫用」為由拒公開完整模型[7],只畀傳媒試用接口[7]。有人擔心會被用嚟生成垃圾內容或歧視性文字,艾倫人工智能研究所隨即整咗個「神經假新聞檢測器」[18]

但業界意見分歧,《The Verge》認為威脅被誇大[19]加州理工學院教授Anima Anandkumar直指OpenAI唔開源係「惡意吹水」[19]。《The Gradient》更發公開信以Photoshop為例,話「正因為人人知有修圖,先至冇搞亂社會」[20]

分階段開源

[編輯]

2019年8月出現咗民間複刻版OpenGPT-2,用自由授權嘅OpenWebText數據,訓練成本約5萬美金[21]。同月20號OpenAI釋出7.74億參數嘅「半成品」[22]

到11月,見無明顯濫用跡象,終於公開完整15億參數模型[2][3]。呢個模型嘅數據量等於莎士比亞全集嘅8000倍[23]

細中型號

[編輯]

另外仲有1.24億參數嘅「細版」同3.55億嘅「中版」,可以喺Huggingface下載[24][25]

局限性

[編輯]
GPT-2連「CNN報道特朗普惣流·明日香·蘭格雷」咁騎呢嘅題材都作到,但生成長文時會愈寫愈語無倫次,好似圖中第二段開始文法崩壞,最後不斷重複同一句。

雖然短文本生成能力驚人,但生成長文時會離題兼唔連貫[17][16]。《The Register》笑話「睇多陣就知唔對路」[13]。而且部署成本高,完整版模型超過5GB,CPU運行要幾分鐘先出到結果,GPU都要幾秒[13]Hugging Face整咗個精簡版DistilGPT2,體積細33%但快兩倍,雖然質素稍跌〔需要引證〕

應用同後續研究

[編輯]

即使完整版未推出,GPT-2已經被用嚟搞搞震兼認真嘢。2019年6月,有人開咗個subreddit叫r/SubSimulatorGPT2,入面有唔同子版訓練出嚟嘅GPT-2分身互相留言駁火,搞到可以睇到「比特幣版AI化身垃圾食物色圖版機械靈魂開片」[26];到7月,有人整咗個基於GPT-2嘅自動完成程式幫手寫code,用家直頭話「改寫遊戲規則」[27]

2019年推出嘅AI Dungeon用GPT-2生成互動文字冒險,玩家輸入指令就有動態劇情[28]。而家呢個遊戲仲可以加錢升級用最勁嘅GPT-3 API,免費版都用緊第二強嘅GPT-3模型[29]。背後公司Latitude喺2021年籌到330萬美金種子資金[30]。仲有幾個網站專門畀人試玩唔同版本嘅GPT-2同其他轉換器模型[31][32][33]

2021年2月,有青少年輔導中心宣布用GPT-2整 chatbot 訓練輔導員,等佢哋同虛擬青少年傾偈練功(純內部使用,唔會畀AI直接同真人青少年交流)[34]

2023年5月9日,OpenAI發布咗GPT-2神經元圖譜,用後繼模型GPT-4逐粒分析GPT-2神經元嘅功能[35]

表現評估

[編輯]
GPT-2虛構愛德華·斯諾登當選2020美國總統大選後嘅新聞(螢光標示部分全由AI生成)。雖然斯諾登從未參政,但篇生成文章文法同格式都似層層。

靠住海量數據同獨特訓練法,GPT-2識得玩多種花臣:答問題、做摘要、甚至跨語言翻譯都掂,而且唔使特別教,淨係學識預測下一隻字就得[16][17]

舉個例,GPT-2明明訓練數據幾乎冇法文(清理數據時刻意刪走外語,淨低4萬MB數據得10MB法文,主要係英文文章引用嘅外語句子)[1],但喺WMT-14英譯法測試竟然拎到5 BLEU分(接近逐字翻譯水平)。法譯英仲勁,拎到11.5 BLEU分,雖然仲未及2019年最勁嘅33.5分[1],但人哋用嘅法文數據量係GPT-2嘅500倍[1]

型號 架構 參數量 訓練數據
GPT-1 12層12頭轉換器解碼器(無編碼器),後接線性-softmax 1.2億 BookCorpus[36] 4.5GB文字,來自7000本未出版嘅各類書籍
GPT-2 改良歸一化嘅GPT-1架構 15億 WebText:40GB[37]文字,800萬份文件,源自Reddit 4500萬個高讚貼文
GPT-3 可擴展性改良版GPT-2 1750億 570GB純文字,3000億token,包含CommonCrawl、WebText、英文維基同兩個圖書數據集(Books1同Books2)

GPT-2之後就係參數量爆到1750億嘅GPT-3[38](2020年公開但從未開源),想用就要經OpenAI同微軟API[39]。再之後就係GPT-4接力。

疏仕

[編輯]
  1. 1.0 1.1 1.2 1.3 1.4 1.5 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做gpt2paper嘅參照
  2. 2.0 2.1 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做verge2嘅參照
  3. 3.0 3.1 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做15Brelease嘅參照
  4. 4.0 4.1 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做openai嘅參照
  5. 5.0 5.1 5.2 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做gpt1paper嘅參照
  6. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做badpaper嘅參照
  7. 7.0 7.1 7.2 7.3 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做guardian嘅參照
  8. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做attention嘅參照
  9. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做attentionRNNs嘅參照
  10. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做jointly嘅參照
  11. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做effective嘅參照
  12. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做commoncrawl嘅參照
  13. 13.0 13.1 13.2 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做register嘅參照
  14. 14.0 14.1 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做staggering嘅參照
  15. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做vb2嘅參照
  16. 16.0 16.1 16.2 16.3 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做verge1嘅參照
  17. 17.0 17.1 17.2 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做voxxy嘅參照
  18. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做neuralfakesnooze嘅參照
  19. 19.0 19.1 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做ethics嘅參照
  20. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做pls嘅參照
  21. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做opengpt2嘅參照
  22. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做vb嘅參照
  23. Murati, Ermira (2022-04-13)。言與編碼創造力 | 美國文理科學院www.amacad.org (英文)。喺2024-03-18搵到
  24. GPT-2 細版。喺2024-10-29搵到
  25. GPT-2 中版. "Openai-community/Gpt2-medium · Hugging Face".
  26. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做reddit嘅參照
  27. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做smartcompose嘅參照
  28. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做aid2嘅參照
  29. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做aidungeon嘅參照
  30. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做tclat嘅參照
  31. 轉換器寫作。原先內容歸檔喺2019-12-04。喺2019-12-04搵到
  32. 轉換器傾偈。原先內容歸檔喺2019-12-04。喺2019-12-04搵到
  33. 意引擎。原先內容歸檔喺2023-02-03。喺2021-06-25搵到
  34. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做teens嘅參照
  35. 言模型可以解釋語言模型中的神經元OpenAI。喺2023-05-13搵到
  36. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015)。齊書本與電影:透過睇戲讀書達成故事化視覺解釋2015年國際計算機視覺會議: 19–27。arXiv:1506.06724。原先內容歸檔喺2023-02-05。喺2023-02-05搵到
  37. Murati, Ermira (2022-04-13)。言與編碼創造力 | 美國文理科學院www.amacad.org (英文)。喺2024-03-18搵到
  38. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做gpt3paper嘅參照
  39. 引用錯誤 無效嘅<ref>標籤;無文字提供畀叫做GPT3microsoft嘅參照