DDPGでPendulum-v0を解く
もし間違っている所やおかしいなと思う所があれば指摘してください
DDPGとは
概要
DDPGは,Actor-Criticの構造を取り,
学習には soft-target や Experiments Replay といった手法を用いる手法で,連続値での制御を行います.
では を学習し, では,を学習します,
soft-target は fixed-target に含まれる手法であり,
今回であれば 両方のネットワークにそれぞれ target ネットワークを準備しておきます.
詳しくは後で述べますが, Actor は確率的方策ではなく決定論的方策を学習していて,
行動方策には出力値にノイズを載せた物を使います.
この特徴から, off-policy な手法であると言えます.
※Experiments Replayは,行動方策と学習方策の一致する on-policy な Agentの学習には使えません.
(以前の履歴は以前の方策に基づいているので.)
今回の実装では,ノイズには平均 0 のガウシアンノイズを用いました.
決定論的な方策勾配定理
証明は面倒くさい長いのでこの記事では説明しません.
結果だけを述べると,
方策勾配は, として近似されます.
なので, の学習は, によって行われます.
( : 学習率)
詳細は下記の論文を見てください.
損失関数
の損失関数には
を用います.
の損失関数には,
を用います.
これを について微分してやれば,先程の方策勾配が求まる事に注意してください.
実装時には,
1.ネットワークには,勾配を流さない様にする
2.方策勾配の計算時に求まった勾配で を更新しない.
に気をつけてください.
soft-target
fixed-targetでは一定間隔で fixed-target と 本体のネットワークを完全に同期していましたが,
この手法では,
によって緩やかにネットワークを同期するようにします.
(同期は,ネットワークの更新と同じ位高頻度で行います.)
これによって学習が安定化されるそうです.
実装
Pendulum-v0の問題設定
状態は,の組で与えられ,
行動は,の連続値で与えます.
また,報酬は,で計算されます.
これまでの記事で扱った問題との最大の違いは行動を連続値で扱わなくてはならない事です.
結果
学習回数は200回程度です.