Emileの備忘録

色々な事をだらだらと

強化学習

Soft Actor-Critic(SAC)でdonkeycarのシミュを走らせてみる

東大の松尾先生の研究室主催のセミナー(RLSP2021)の復習に書いた記事です. 1回生で参加し, 知識不足ではありましたがとても勉強になりました. ありがとうございました. 記号の定義 SACとは? 概要 学習とそれぞれの損失関数 ・Critic()の損失関数 ・Actor()の…

A2Cの理論と実装

この記事はKyoto University Advent Calendar 2020の記事の12/21日分として書かれた物です. adventar.org 先日のd0ra1998先輩の記事には改めて京都の四季の美しさに気付かされました. 先輩方の面白い記事が並んでいる中でこんな駄文を投下するのは気が引けま…

DDPGでPendulum-v0を解く

もし間違っている所やおかしいなと思う所があれば指摘してください DDPGとは 概要 決定論的な方策勾配定理 損失関数 soft-target 実装 Pendulum-v0の問題設定 ソースコード 結果 参考文献 DDPGとは 概要 DDPGは,Actor-Criticの構造を取り, 学習には soft-tar…

ベルマン作用素の基本と性質

この記事上での定義 ベルマン方程式再び ベルマン作用素とその性質 2つのベルマン作用素 定義 性質 1.単調性 2.ベルマン作用素はバラせる. 3.収束性 4.一意性 5.縮小性 まとめ 間違っていたら教えてください この記事上での定義 ・作用素 : 関数から関数への…

MountainCar-v0をfixed target Q-networkを用いて解く

もし間違っている所やおかしいなと思う所があれば指摘してください MountainCar-v0の問題設定 fixed target Q-networkについて 定義再び どういう手法か その他の工夫 Experience Replay 実装 結果 MountainCar-v0の問題設定 目的:台車を右上の旗がある所に…