信任域政策最佳化

出自維基百科，自由嘅百科全書

信任域政策最佳化（英文：Trust Region Policy Optimization，TRPO）係一類無模型嘅強化學習演算法。佢係一種同策（on-policy）方法，限制KL分歧冇超過某隻數來保證新舊政策走差冇咁遠嘅。^[1]喺 TRPO 基礎上發展出有 PPO 啲方法^[2]。

考

↑ "Trust Region Policy Optimization". OpenAI Spinning Up. 喺2022-06-19搵到.{{cite web}}: CS1 maint: url-status (link)
↑ "Proximal Policy Optimization". OpenAI Spinning Up. 喺2022-06-18搵到.{{cite web}}: CS1 maint: url-status (link)

由「https://zh-yue.wikipedia.org/w/index.php?title=信任域政策最佳化&oldid=1837619」收

強化學習

屬於2隱類：