跳去內容

DALL-E

出自維基百科,自由嘅百科全書
DALL-E
DALL-E sample
DALL-E製作嘅圖,基於文字「專業高質嘅示意圖畀長頸鹿溝埋龍嘅混成體;長頸鹿模仿一條龍;攞龍做嘅長頸鹿」(a professional high quality illustration of a giraffe dragon chimera. a giraffe imitating a dragon. a giraffe made of dragon)
原作者OpenAI
初始版本2021年1月5號
軟件類別Transformer 語言模型
網站www.openai.com/blog/dall-e/
論文arXiv:2101.12092
開咗源
開源版本
源碼github.com/lucidrains/DALLE-pytorch

DALL-E,風格化叫做 DALL·E,係一種人工智能程式,透過文本描述嚟生成圖像嘅,2021年1月5號由 OpenAI 公佈[1][2]。呢個程序係基於120億參數[3]版本嘅 GPT-3 Transformer模型嘅,攞嚟解釋啲自然語言輸入(譬如「形狀似五邊形嘅綠色皮革錢包」抑或「悲傷水豚等軸測圖」)並生成相應嘅圖片。佢識創建逼真對象嘅圖像(「帶有藍色士多啤梨圖像嘅彩色玻璃窗」)與及實際上唔存在嘅對象(「有豪豬紋理嘅立方體」) [4][5][6][7]。DALL-E 個名係一個混成詞,嚟自 WALL-E達利

由2000年代起,好多神經網絡已經識生成逼真嘅圖像[1],但 DALL-E 識由啲自然語言提示嚟生成圖像、啲「佢理解到[...]並且好少有好嚴重嘅失敗情況」嘅[1]

DALL-E 佮埋另一種模型 CLIP(英文Contrastive Language-Image Pre-training,「對比語言-圖像預訓練」) [2]一齊開發並向公眾宣布,種模型嘅作用係「理解同埋排列」啲輸出[1]。DALL-E嘅原始輸出由CLIP整理展示,CLIP識為任意畀定嘅提示提供最高質量嘅圖像。OpenAI 拒絕發布任何一種模型嘅源代碼。OpenAI 嘅網站度提供唨 DALL-E 嘅「受控演示」,可以喺其中查啲根據有限示例提示得到嘅輸出[3]

根據《麻省理工學院技術評論》,DALL-E嘅開發過程中,OpenAI嘅目標之一係「令到語言模型掌握啲日常概念掌握得更好,啲人類攞嚟理解事物嘅。」[2]

架構

[編輯]

通用預訓練Transformer(GPT)模型由OpenAI首次開發於2018年[8], 使用Transformer架構。第一次迭代成品GPT得喺2019年擴大規模嚟轉成GPT-2 [9]。2020年,GPT-2嘅功能都得到唨類似嘅增強,嚟轉成GPT-3[10],DALL-E就係其中嘅一種[3][11]。佢使用零次學習嚟由描述跟提示生成輸出,而唔使進一步訓練[12]

DALL-E 嘅模型係 GPT-3[3]嘅 120 億參數版本(由GPT-3嘅成1,750億嘅參數大小縮減成)[10],呢個模型「攞像素為單位交換文本」,訓練喺啲嚟自互聯網嘅文本圖像對(text-image pairs)嘅基礎上[2]

DALL-E 根據提示生成大量圖像;另一種 OpenAI 模型 CLIP、佮埋 DALL-E 共同開發並同時宣布嘅,係負責「理解跟排序」佢啲輸出 [1]。CLIP嘅訓練接受有超過4億對圖像跟文本[3]。CLIP係一種圖像識別系統[2];但係,戥大多數分類器模型唔同嘅係,CLIP唔係集中訓練喺啲有標記過嘅圖像(譬如 ImageNet)嘅精選數據之上,而係訓練喺啲從Internet到嘅圖像跟描述之上。CLIP唔係學習自單個標籤,而係學習捉圖像同成個標題相關聯。訓練過嘅CLIP識預測邊種描述(透過「隨機揀選」由32,768個可能描述當中揀出)最啱返個圖像,係噉令佢有能力喺訓練集之外識別各種圖像當中嘅對象。

表現

[編輯]

DALL-E識以多種風格生成圖像,從逼真嘅圖像[3]繪畫跟表情符號。佢仲識「操縱跟重新排列」佢啲圖像當中嘅對象[3]。佢有一項功能俾佢個創造者註意到嘅係識將設計元素正確噉擺喺新穎嘅構圖當中、而唔使明確嘅指示:「譬如,着要求繪製一碌白蘿蔔吹佢個鼻、啜拿鐵又或者騎獨輪車嗰陣,DALL·E 通常會喺合理嘅位置繪製啲方巾、手同埋腳 [13]。」

儘管DALL-E展示唨各種各樣嘅技能跟能力,但喺佢個公開 demo 嘅發布入便,大多數報導都集中喺一少部分「超現實」[2]抑或「古怪」[14]嘅輸出圖像度。具體嚟講,DALL-E嘅輸出「著住芭蕾舞裙、帶緊狗嘅蘿蔔仔插圖」,就喺Input、NBC、NatureVentureBeatWired、CNN、New Scientist與及BBC嘅文章當中都有提到 [15] [16] [17] [3] [18] [19][20][21];佢啲針對「牛油果狀扶手椅」提示嘅輸出,就俾 《Wired》、《VentureBeat》、《New Scientist》、NBC、《麻省理工科技評論》、CNBC、CNN 與及 BBC 報導唨[2][3][14][18][19][20][21]。相反,機械學習工程師Dale Markowitz喺TheNextWeb度報導唨DALL-E意外發展出嘅視覺推理技能,個足夠攞嚟解決啲Raven矩陣(一種視覺測試,好多時係畀人類做,嚟測量智力嘅 )嘅 [22]

自然》將DALL-E稱為「一種人工智能程序,識繪製幾乎你所需要到嘅任何嘢」[17]。《TheNextWeb 》嘅托馬斯·麥高雷(Thomas Macaulay)稱佢啲圖像「醒目」同埋「令人印象深刻」,點名到佢個「畀有一條提示包括有未訓練過嘅啲奇幻物體、啲係由無關思想結合起身嘅,就識探索條提示個結構並創建全新圖片嘅能力」 [23]。《ExtremeTech》表示:「有時渲染效果唔似人手繪畫咁好,但係有時又係精確嘅刻畫」 [24]。《TechCrunch》話,儘管 DALL-E 係「非常之有趣且功能強大嘅成果」,但佢有時會產生啲奇怪又或者難以理解嘅輸出,並且「好多佢生成嘅圖像都有啲……走趲」 [1]

話「形狀似五邊形嘅綠色皮革錢包」可能係會生成到預期中嘅效果,但係話「形狀似五邊形嘅藍色絨面皮革錢包」就可能會整出噩夢嚟。點解?考慮到呢啲系統嘅黑盒性質,好難講 [1]

儘管如此,DALL-E着描述為「對噉樣嘅變化頑健交關」,並且喺生成用於各種任意描述嘅圖像陣時都係可靠嘅 [1]CNBC嘅 Sam Shead 報道稱佢啲圖像「古怪」,並引用埋劍橋大學機械學習教授 Neil Lawrence 嘅描述,之話佢係「一種鼓舞性嘅演示,演示到呢啲模型嘅嗰種能力,即存儲啲關於我哋世界嘅信息並加以概括、而且係以一種人類認為非常之自然嘅方式」。佢仲引用埋佐治亞州互動計算技術學院副教授 Mark Riedl 嘅話,佢講到 DALL-E 嘅演示結果表明DALL-E識「連貫噉溝埋啲概念」、之係人類創造力嘅關鍵要素,而「 DALL -E演示非常之出色,喺產生插圖方面,啲插圖仲連貫過我過去幾年睇過嘅其他 Text2Image 系統。」 英國廣播公司仲引用里德爾嘅話講到,佢「對呢個系統嘅能力印象深刻」 [21]

DALL-E 識「填補空白」、喺冇特定提示嘅情況下推斷出適當嘅細節。《ExtremeTech》指出,一個提示要求到畫一隻著住聖誕節唥衫嘅企鵝嘅圖像唔單止會產生啲形象係著住唥衫嘅企鵝嘅、而且仲會係著住同個主題相關嘅聖誕帽[24]。《Engadget》亦都指出,喺針對「一幅畫冬天坐喺田野裡嘅狐狸嘅肖像」條提示嘅輸出裏頭陰影都擺得好啱[12]。另自例子當中,DALL-E仲展示唨對視覺同設計風向嘅廣泛理解;《ExtremeTech》表示,「你可以向DALL-E要求畀出喺指定時期當中手機抑或吸塵器嘅照片,而佢瞭解呢啲嘢係點樣變化嘅」[24]。《Engadget》都指出唨佢個「理解電話跟其他嘢點樣隨時間變化」嘅非凡能力[12]

可能影響

[編輯]

OpenAI拒絕公佈DALL-E嘅源代碼,亦都唔允許喺少量示例提示之外使用佢 [3];OpenAI聲稱計劃喺DALL-E之類嘅模型中「分析啲社會影響」[23]同埋「潛在嘅走趲」[14]。即管缺乏權限攞到 DALL-E,但 DALL-E 嘅至少一種可能嘅影響已經有討論到,一啲記者跟內容作者主要預測 DALL-E 可能會對新聞跟內容寫作領域產生影響。Sam Shead 喺 CNBC 嘅文章當中指出過,有啲人擔心缺乏已發表嘅論文有描述到呢個系統嘅,而且 DALL-E 仲未「開源」 [sic] [14]

儘管《TechCrunch》話「暫時唔好寫照片同插圖廣告書住」[1],《ExtremeTech》咁講:「如果進一步發展,DALL-E 會有顛覆股票照片同插圖等領域嘅巨大潛力,唔論佢個影響會係好定壞」[12]

《福布斯》嘅一篇觀點文章當中,風險投資家Rob Toews表示,DALL-E「預示唨一種新嘅AI範式,即多模態AI 」嘅出現,呢個系統會有能力「解釋、合成同埋轉換多種信息模式」。佢跟住話,DALL-E 證明到「越嚟越難以否認人工智能具有創造力」噉。根據樣本提示(其中包括埋著住衫嘅模特與及家具物品),佢預測時裝設計師同埋家具設計師可能會使埋 DALL-E,但佢又預測「技術會繼續噉快速改進」[25]

相關模型

[編輯]
  • DALL-E mini:一隻基於DALL-E開源版本嘅模型,攞來展現過OpenAI啲結果嘅,但縮細咗模型大細有成1/27咁多。[26]
  • DALL-E 2(DALL·E 2):2022年OpenAI推出嘅新模型,直接利用CLIP做embedding嘅。
  • Imagen:2022年Google推出嘅新模型同樣畀項工轉文字成圖像嘅。

參考資料

[編輯]
  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Coldewey, Devin (5 January 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". 喺5 January 2021搵到.
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Heaven, Will Douglas (5 January 2021). "This avocado armchair could be the future of AI". MIT Technology Review. 喺5 January 2021搵到.
  3. 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 Johnson, Khari (5 January 2021). "OpenAI debuts DALL-E for generating images from text". VentureBeat. 喺5 January 2021搵到.
  4. Grossman, Gary (16 January 2021). "OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator". VentureBeat. 喺2 March 2021搵到.
  5. Andrei, Mihai (8 January 2021). "This AI module can create stunning images out of any text input". ZME Science. 喺2 March 2021搵到.
  6. Walsh, Bryan (5 January 2021). "A new AI model draws images from text". Axios. 喺2 March 2021搵到.
  7. "For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions". Synced. 5 January 2021. 喺2 March 2021搵到.
  8. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. 喺23 January 2021搵到.
  9. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). "Language models are unsupervised multitask learners" (PDF). 1 (8). 喺19 December 2020搵到. {{cite journal}}: Cite journal requires |journal= (help)
  10. 10.0 10.1 Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (July 22, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]. {{cite arxiv}}: Unknown parameter |url= ignored (help)
  11. Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 February 2021). "Zero-Shot Text-to-Image Generation". arXiv:2101.12092 [cs.LG].
  12. 12.0 12.1 12.2 12.3 Dent, Steve (6 January 2021). "OpenAI's DALL-E app generates images from just a description". Engadget. 喺2 March 2021搵到.
  13. Dunn, Thom (10 February 2021). "This AI neural network transforms text captions into art, like a jellyfish Pikachu". BoingBoing. 喺2 March 2021搵到.
  14. 14.0 14.1 14.2 14.3 Shead, Sam (8 January 2021). "Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab". CNBC. 喺2 March 2021搵到.
  15. Kasana, Mehreen (7 January 2021). "This AI turns text into surreal, suggestion-driven art". Input. 喺2 March 2021搵到.
  16. Ehrenkranz, Melanie (27 January 2021). "Here's DALL-E: An algorithm learned to draw anything you tell it". NBC News. 喺2 March 2021搵到.
  17. 17.0 17.1 Stove, Emma (5 February 2021). "Tardigrade circus and a tree of life — January's best science images". Nature. 喺2 March 2021搵到.
  18. 18.0 18.1 Knight, Will (26 January 2021). "This AI Could Go From 'Art' to Steering a Self-Driving Car". Wired. 喺2 March 2021搵到.
  19. 19.0 19.1 Metz, Rachel (2 February 2021). "A radish in a tutu walking a dog? This AI can draw it really well". CNN. 喺2 March 2021搵到.
  20. 20.0 20.1 Stokel-Walker, Chris (5 January 2021). "AI illustrator draws imaginative pictures to go with text captions". New Scientist. 喺4 March 2021搵到.
  21. 21.0 21.1 21.2 Wakefield, Jane (6 January 2021). "AI draws dog-walking baby radish in a tutu". British Broadcasting Corporation. 喺3 March 2021搵到.
  22. Markowitz, Dale (10 January 2021). "Here's how OpenAI's magical DALL-E image generator works". TheNextWeb. 喺2 March 2021搵到.
  23. 23.0 23.1 Macaulay, Thomas (6 January 2021). "Say hello to OpenAI's DALL-E, a GPT-3-powered bot that creates weird images from text". TheNextWeb. 喺2 March 2021搵到.
  24. 24.0 24.1 24.2 Whitwam, Ryan (6 January 2021). "OpenAI's 'DALL-E' Generates Images From Text Descriptions". ExtremeTech. 喺2 March 2021搵到.
  25. Toews, Rob (18 January 2021). "AI And Creativity: Why OpenAI's Latest Model Matters". Forbes. 喺2 March 2021搵到.
  26. Dayma, Boris; Patil, Suraj; Cuenca, Pedro; Saifullah, Khalid; Abraham, Tanishq; Lê, Phúc; Melas, Luke; Ghosh, Ritobrata (2022-05-16). "DALL-E Mini Explained with Demo". Weights & Biases.{{cite web}}: CS1 maint: url-status (link)