跳去內容

近便政策最佳化

出自維基百科,自由嘅百科全書

近便政策最佳化英文Proximal Policy Optimization,PPO)係一類無模型強化學習演算法。PPO演算法屬政策梯度方法,即係啲演算法係跟個政策空間當中lam1 / ngam4出政策,而嘸係挃值畀啲狀態-動作孖。

PPO 演算法有一啲優點係信任域政策最佳化 (TRPO) 都有嘅,但 PPO 易實現、通用過 TRPO,又有樣本複雜度好過。[1]

變體

[編輯]

PPO 有兩種主要嘅變體,一種係 PPO-Penalty,一種係 PPO-Clip。[2]

睇埋

[編輯]

[編輯]
  1. Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Proximal Policy Optimization Algorithms". arXiv:1707.06347.
  2. "Proximal Policy Optimization". OpenAI Spinning Up. 喺2022-06-18搵到.{{cite web}}: CS1 maint: url-status (link)

連出去

[編輯]