コンテンツにスキップ

Terakoya Cafe Terrace

Reinforcement Learning(強化学習)

Reinforcement Learning(強化学習)

10本腕バンディット問題をグリーディ法で解こう！

バンディット問題を貪欲に解く: link

ε-グリーディ法でバンディット問題を解こう！

εという小さい確率を入れるのが大事: link

楽観的初期値をやっていこう！

初期値の決め方で全体を効率的に回る: link

上限信頼区間(UCB)で行動を選択しよう！

行動回数が少ないならその確率を上げればいいじゃない: link

ソフトマックスを使った勾配バンディットアルゴリズムを実装してみよう！

ソフトマックスは確率として見やすくてよいね、という話: link

グリッドワールドをベルマン方程式で解いてみよう！！

グリッドワールドという簡易環境で、ベルマン方程式を解いてみる: link

ベルマン最適方程式で最適な方向を可視化しよう！！

グリッドワールドでベルマン最適方程式で方向を可視化: link