コンテンツにスキップ

Terakoya Cafe Terrace

強化学習周りの実装

強化学習周りの実装

Greedy法
貪欲にバンディットしていこう！
Impl: link movie: link memo: link
ε-Greedy法
たまには別のものも選ぼう
Impl: link movie: link memo: link
楽観的初期値
初期値は寛容にするとよいらしい
Impl: link movie: link memo: link
上限信頼区間(UCB)
ステップ数をうまくlogオーダーで組み込む
Impl: link movie: link memo: link
勾配バンディットアルゴリズム
ソフトマックスを使ってうまく学習をしていく
Impl: link movie: link memo: link
ベルマン方程式
ベルマン方程式を使ってグリッドワールドを解く
Impl: link movie: link memo: link
ベルマン最適方程式
ベルマン最適方程式でグリッドワールドの最大化を可視化
Impl: link movie: link memo: link
動的計画法(DP)
DPによるグリッドワールドの計算
Impl: link memo: link
Jack's Car Rental Probrem
ジャックのカーレンタル問題を解く
Impl: link memo: link