出版社内容情報
「平均」の観点から強化学習の原理がわかる!
AlphaGoがプロ棋士を破った2016年以降、さまざまな分野から注目されている深層強化学習ですが、専門書は非常に難解でわかりづらい傾向にあります。
そこで本書は、初歩的な数学を使って原理をわかりやすく解説します。価値・探索・マルコフ決定過程・動的計画法・モンテカルロ法・TD法といった強化学習の諸要素を、中高生にもなじみ深い平均値の計算から説明し、初学者でも基本とコツを自然と身につけられます。抽象的な強化学習の概念と煩雑な数学式を直感的に感じつつ、本質まで把握できることが本書の最大の特徴です。
また、すべての例題にPythonとMATLABのコードを示し、原理・数式・コードという一連の流れを紐付けて理解できるようになっています。初学者でも入りやすく、難しさを感じないまま、強化学習の基本と深層学習のコツを自然と身につけられる入門書です。
【本書の特徴】
・難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説しています。
・すべての例題にPythonとMATLABのコードを例示しています。
内容説明
強化学習の難解な理論を平均を入口としてやさしく解説。原理→数式→プログラムの流れで全体像を直感的に把握できます。
目次
第1章 平均で学ぶ強化学習の基本概念(平均と期待値;平均と価値 ほか)
第2章 各アルゴリズムの特徴と応用(強化学習における方策π(a|S)
動的計画法 ほか)
第3章 関数近似手法(関数近似の基本概念;関数近似モデルを用いたV(St)の表現 ほか)
第4章 深層強化学習の原理と手法(TD‐Q学習法におけるNNによる行動価値関数の回帰;DQNによる行動状態価値関数の近似 ほか)
著者等紹介
曽我部東馬[ソガベトウマ]
理学博士(物理学専攻)。マックス・プランク研究所(独)博士研究員、ケンブリッジ大学(英)研究員を経て、2009年帰国、株式会社グリッドの設立に携わり、取締役最高技術責任者を務める。2011年より東京大学先端科学技術研究センター特任助教、特任准教授を歴任、2016年3月電気通信大学准教授、株式会社グリッド最高技術顧問(兼務)、東京大学先端科学技術研究センター客員研究員(兼務)(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
kaida6213
ゆう
さぼん
おしるこ
おしるこ
-
- 和書
- ドラッカーの警鐘を超えて