ベルマン作用素の基本と性質
間違っていたら教えてください
この記事上での定義
・作用素 : 関数から関数への写像
・
・ : 状態集合
・ : 行動の集合
・ : 状態で行動を取った時に手に入る報酬を与える関数.
・ : 状態で行動を取った時に,状態に遷移する確率を与える関数.
・ : 方策の事.状態で行動を取る確率を与える関数.
ベルマン方程式再び
定義だけ書きます.
ベルマン方程式 :
ベルマン最適方程式 :
ベルマン作用素とその性質
定義性質と証明 の順番に書きます.
2つのベルマン作用素
MDPに対してのお話である事に注意してください.
性質
1.単調性
がならば,
・と,
・が成立.
証明(上の式)
数学的帰納法を用いて成立を示す.
成立を示す式を①とする.
(1)の時,は明らかに成立するので,①の成立が示された.
(2)の時の成立を仮定し,の時の成立を示す.
より, の成立が言える.
ゆえに,である事を踏まえて,
より,
,
つまりが成立する.
以上より,でも成立.
以上から,数学的帰納法より,①の成立が示された.
下の式も全く同様に証明できる.
2.ベルマン作用素はバラせる.
関数に定数を加えた関数をと定義する.
任意のに対して,
・,
・が成立.
証明(上の式)
が成立する事に留意して,数学的帰納法を用いて示す.
成立を示したい式を①と置く.
(1)の時,
より,明らかに①は成立する.
(2)の時の成立を仮定して,でも成立する事を示す.
が成立するから,これの両辺にを適用して,
が成立する.
ゆえに,でも成立する.
以上より,数学的帰納法から,①の成立が示された.
下の式も全く同様に証明できる.
3.収束性
任意の有界の状態関数に対して,
(1)
(2)非定常な方策系列のベルマン期待作用素について,
に対して,が成立.
証明:
(1)関数はの有界関数なので,
なる定数が存在する.
よって,が成立.
この両辺にを回適用して,単調性より,
,さらに変形して,
が成立.
これに対して,とすれば,はさみうちの原理より,が成立.
以上から,示された.
(2)
より,
は有界なので,なるが存在するから,
が成立.
ゆえに,が成立.
また,は式の意味から,
は有界なので,なる定数が存在.
ゆえに,が成立.
以上の2つを合わせて,
が成立するから,とすれば,
はさみうちの原理より(2)の成立が示された.
4.一意性
(1)ベルマン最適方程式の解になる関数は,
を満たし,この様になるはのみである.
(2)定常な方策についてのベルマン期待方程式の解になる関数は,
を満たし,この様になるはのみである.
証明
(1)
かつを満たすの存在を仮定する.
この時,より,が成立.
これは仮定に矛盾する.ゆえに,示された.
(2):(1)と全く同じ様に示せる.
ちなみに,が定常方策でなければならないのは,
定常では無い時,同じ状態であっても時間ステップによってが異なるからである.
まとめ
・上に書いた5つの性質から,有界な関数にベルマン最適作用素やベルマン作用素を適用する事で,
がやに収束する事が分かる.
・これらの性質が考察の基礎になる.(例えば,近似ベルマン作用素が本当に収束するかを考える時とか)
参考文献
www.kspub.co.jp
↑とてもわかり易く説明されています.