コンテンツにスキップ

強化学習周りの実装

  • Greedy法
    貪欲にバンディットしていこう!
    Impl: link movie: link memo: link

  • ε-Greedy法
    たまには別のものも選ぼう
    Impl: link movie: link memo: link

  • 楽観的初期値
    初期値は寛容にするとよいらしい
    Impl: link movie: link memo: link

  • 上限信頼区間(UCB)
    ステップ数をうまくlogオーダーで組み込む
    Impl: link movie: link memo: link

  • 勾配バンディットアルゴリズム
    ソフトマックスを使ってうまく学習をしていく
    Impl: link movie: link memo: link

  • ベルマン方程式
    ベルマン方程式を使ってグリッドワールドを解く
    Impl: link movie: link memo: link

  • ベルマン最適方程式
    ベルマン最適方程式でグリッドワールドの最大化を可視化
    Impl: link movie: link memo: link

  • 動的計画法(DP)
    DPによるグリッドワールドの計算
    Impl: link memo: link

  • Jack's Car Rental Probrem
    DPによるグリッドワールドの計算
    Impl: link movie: まだ