擴散模型

擴散模型（英文：diffusion model），又喊做擴散概率模型，係機械學習裏頭一種潛在變數模型。啲模型係憑變分推斷訓練嘅馬可夫鏈。^[1]模型嘅目標係學習種潛在結構畀隻數據集，透過建模畀種方式，種藉由佢啲數據點識擴散開喺隻潛在空間嘅。喺電腦視覺領域，噉樣代表到藉由訓練並學習到種逆過程畀擴散過程，一隻神經網絡會識做去噪畀啲圖像，啲經過高斯噪音模糊過嘅。^[2]^[3]

擴散模型得到引入喺2015年，出於非平衡熱力學方面嘅動機。^[4]

擴散模型可以應用喺各種任務，包括有去噪、修復圖像、超解像度、與及生成圖像。譬如，一個生成圖像嘅模型會跟一幅隨機噪音嘅圖像開始，然之後接受訓練畀逆過程畀擴散到自然圖像之後，模型會識得生成新嘅自然圖像。最近嘅例子有OpenAI隻文本到圖像模型DALL-E 2得到發佈喺2022年4月13號。佢攞擴散模型做模型先驗（產生圖像embedding喺畀有文本標題陣時）與及生成最終圖像嘅decoder。^[5]同樣使到擴散模型嘅仲有Google嘅Imagen，喺同年5月23號出。^[6]

睇埋

考

↑ Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (19 June 2020). "Denoising Diffusion Probabilistic Models". doi:10.48550/arXiv.2006.11239. {{cite journal}}: Cite journal requires |journal= (help)
↑ Song, Yang; Ermon, Stefano (2020). "Improved Techniques for Training Score-Based Generative Models". doi:10.48550/arXiv.2006.09011. {{cite journal}}: Cite journal requires |journal= (help)
↑ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". doi:10.48550/arXiv.2111.14822. {{cite journal}}: Cite journal requires |journal= (help)
↑ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (2015-06-01). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning (英文). PMLR. 37: 2256–2265.
↑ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022). "Hierarchical Text-Conditional Image Generation with CLIP Latents". doi:10.48550/arXiv.2204.06125. {{cite journal}}: Cite journal requires |journal= (help)
↑ Google Research, Brain Team. "Imagen - unprecedented photorealism × deep level of language understanding". {{cite web}}: |last= has generic name (help)CS1 maint: url-status (link)

[1] Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (19 June 2020). "Denoising Diffusion Probabilistic Models". doi:10.48550/arXiv.2006.11239. {{cite journal}}: Cite journal requires |journal= (help)

[2] Song, Yang; Ermon, Stefano (2020). "Improved Techniques for Training Score-Based Generative Models". doi:10.48550/arXiv.2006.09011. {{cite journal}}: Cite journal requires |journal= (help)

[3] Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". doi:10.48550/arXiv.2111.14822. {{cite journal}}: Cite journal requires |journal= (help)

[4] Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (2015-06-01). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning (英文). PMLR. 37: 2256–2265.

[5] Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022). "Hierarchical Text-Conditional Image Generation with CLIP Latents". doi:10.48550/arXiv.2204.06125. {{cite journal}}: Cite journal requires |journal= (help)

[6] Google Research, Brain Team. "Imagen - unprecedented photorealism × deep level of language understanding". {{cite web}}: |last= has generic name (help)CS1 maint: url-status (link)

[1]

[2]

[3]

[4]

[5]

[6]