2020-12-13から1日間の記事一覧

DDPGでPendulum-v0を解く

強化学習

もし間違っている所やおかしいなと思う所があれば指摘してください DDPGとは概要決定論的な方策勾配定理損失関数 soft-target 実装 Pendulum-v0の問題設定ソースコード結果参考文献 DDPGとは概要 DDPGは,Actor-Criticの構造を取り, 学習には soft-tar…