強化学習周りの実装
-
上限信頼区間(UCB)
ステップ数をうまくlogオーダーで組み込む
Impl: link movie: link memo: link -
勾配バンディットアルゴリズム
ソフトマックスを使ってうまく学習をしていく
Impl: link movie: link memo: link -
ベルマン方程式
ベルマン方程式を使ってグリッドワールドを解く
Impl: link movie: link memo: link -
ベルマン最適方程式
ベルマン最適方程式でグリッドワールドの最大化を可視化
Impl: link movie: link memo: link -
Jack's Car Rental Probrem
DPによるグリッドワールドの計算
Impl: link movie: まだ