Reinforcement Learning(強化学習)
10本腕バンディット問題をグリーディ法で解こう!
バンディット問題を貪欲に解く: link
ε-グリーディ法でバンディット問題を解こう!
εという小さい確率を入れるのが大事: link
楽観的初期値をやっていこう!
初期値の決め方で全体を効率的に回る: link
上限信頼区間(UCB)で行動を選択しよう!
行動回数が少ないならその確率を上げればいいじゃない: link
ソフトマックスを使った勾配バンディットアルゴリズムを実装してみよう!
ソフトマックスは確率として見やすくてよいね、という話: link
グリッドワールドをベルマン方程式で解いてみよう!!
グリッドワールドという簡易環境で、ベルマン方程式を解いてみる: link