Soft Actor-Critic(SAC)でdonkeycarのシミュを走らせてみる

強化学習アルゴリズム

東大の松尾先生の研究室主催のセミナー(RLSP2021)の復習に書いた記事です. 1回生で参加し, 知識不足ではありましたがとても勉強になりました. ありがとうございました. 記号の定義 SACとは? 概要学習とそれぞれの損失関数・Critic()の損失関数・Actor()の…

2020-12-21

A2Cの理論と実装

強化学習

この記事はKyoto University Advent Calendar 2020の記事の12/21日分として書かれた物です. adventar.org 先日のd0ra1998先輩の記事には改めて京都の四季の美しさに気付かされました. 先輩方の面白い記事が並んでいる中でこんな駄文を投下するのは気が引けま…

2020-12-13

DDPGでPendulum-v0を解く

強化学習

もし間違っている所やおかしいなと思う所があれば指摘してください DDPGとは概要決定論的な方策勾配定理損失関数 soft-target 実装 Pendulum-v0の問題設定ソースコード結果参考文献 DDPGとは概要 DDPGは,Actor-Criticの構造を取り, 学習には soft-tar…

2020-08-20

ベルマン作用素の基本と性質

強化学習アルゴリズム

この記事上での定義ベルマン方程式再びベルマン作用素とその性質 2つのベルマン作用素定義性質 1.単調性 2.ベルマン作用素はバラせる. 3.収束性 4.一意性 5.縮小性まとめ間違っていたら教えてくださいこの記事上での定義・作用素 : 関数から関数への…

2020-06-20

MountainCar-v0をfixed target Q-networkを用いて解く

強化学習

もし間違っている所やおかしいなと思う所があれば指摘してください MountainCar-v0の問題設定 fixed target Q-networkについて定義再びどういう手法かその他の工夫 Experience Replay 実装結果 MountainCar-v0の問題設定目的:台車を右上の旗がある所に…

Emileの備忘録

色々な事をだらだらと

強化学習

Soft Actor-Critic(SAC)でdonkeycarのシミュを走らせてみる

A2Cの理論と実装

DDPGでPendulum-v0を解く

ベルマン作用素の基本と性質

MountainCar-v0をfixed target Q-networkを用いて解く