内容説明
MDPでモデル化するための地力を養う。強化学習・深層強化学習のしくみの理解にも役に立つ。アルゴリズムの徹底詳説×豊富な応用事例。
目次
マルコフ決定過程とは
マルコフ決定過程の基本的な問題設定とアルゴリズム
マルコフ決定過程の基本的な機械学習
真のパラメータが変化するマルコフ決定過程
状態、行動、利得に関する工夫
推薦システムへの適用―基本的な非割引問題
金融工学への適用―基本的な割引問題
ロールプレイングゲームへの適用―複数の情報で構成される状態+複数の独立な試行で構成される状態遷移確率によるモデル
通信工学への適用―複数の情報で構成される状態+少数のパラメータで構成される状態遷移確率によるモデル
ベイズ流の仮説検定への適用―最後の期においてのみ利得が発生するモデル(基礎)
教育工学への適用―最後の期においてのみ利得が発生するモデル(発展)
設備保全、アセットマネジメントとヘルスケア支援への適用―良好な状態維持が目的のモデル
深層強化学習の入口
付録A マルコフ連鎖
付録B 隠れマルコフモデル
付録C ベイズ統計と統計的決定理論
著者等紹介
前田康成[マエダヤスナリ]
1997年早稲田大学理工学研究科修士課程機械工学専攻修了。1997年日本電信電話株式会社入社。1997年同社情報通信研究所勤務。1999年同社サイバースペース研究所勤務。2000年東日本電信電話株式会社研究開発センタ勤務。2004年博士(工学)(早稲田大学)。2005年北見工業大学助手。2007年北見工業大学助教。2010年北見工業大学准教授。2016年北見工業大学教授(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。