コンテンツにスキップ

Reinforcement Learning(強化学習)

10本腕バンディット問題をグリーディ法で解こう!

バンディット問題を貪欲に解く: link

ε-グリーディ法でバンディット問題を解こう!

εという小さい確率を入れるのが大事: link

楽観的初期値をやっていこう!

初期値の決め方で全体を効率的に回る: link

上限信頼区間(UCB)で行動を選択しよう!

行動回数が少ないならその確率を上げればいいじゃない: link

ソフトマックスを使った勾配バンディットアルゴリズムを実装してみよう!

ソフトマックスは確率として見やすくてよいね、という話: link

グリッドワールドをベルマン方程式で解いてみよう!!

グリッドワールドという簡易環境で、ベルマン方程式を解いてみる: link