目次
1 数学的な準備
2 強化学習の定式化
3 価値関数の学習
4 オンポリシー型の方策の学習
5 オフポリシー型の方策の学習
6 オフライン強化学習アルゴリズム
7 モデルベース強化学習
8 発展的話題
著者等紹介
長隆之[オサタカユキ]
2007年東京大学工学部産業機械工学科卒業。2025年理化学研究所チームディレクター(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
-
- 電子書籍
- でこぼの家族(3)



