強化学習アルゴリズム

個数：1

紙書籍版価格
¥4,840

電子書籍
ポイントキャンペーン

強化学習アルゴリズム

著者名：長隆之
価格 ¥4,840（本体¥4,400）
コロナ社（2026/06発売）
向夏の候！Kinoppy 電子書籍・電子洋書全点ポイント３０倍キャンペーン（～6/28）
ポイント 1,320pt　（実際に付与されるポイントはご注文内容確認画面でご確認下さい）

ISBN：9784339029536

ファイル： /

内容説明

強化学習の論文の理解に必要な知識を網羅し，研究者に広く利用されている知識・手法を可能な限り解説。今後さらなる応用が期待される強化学習アルゴリズムについて，自ら論文を読み，最新の研究動向を理解する力を得ることを目指す。

1．数学的な準備
1.1　確率　
　1.1.1　多変数の確率　
　1.1.2　期待値　
　1.1.3　最尤法と最小二乗法の関係　
　1.1.4　最尤法と交差エントロピー損失　
　1.1.5　偏差と分散　
1.2　強化学習でよく使われる情報量　
　1.2.1　エントロピー　
　1.2.2　カルバック・ライブラー情報量　
　1.2.3　forward KL情報量とreverse KL情報量　
　1.2.4　f-ダイバージェンス　
　1.2.5　Wasserstein距離　
　1.2.6　相互情報量　
　1.2.7　エントロピー正則化とボルツマン分布　
1.3　ブラックボックス最適化アルゴリズム　
　1.3.1　reward-weighted regression　
　1.3.2　クロスエントロピー法　

2．強化学習の定式化
2.1　強化学習とはどんなものか　
2.2　マルコフ決定過程　
　2.2.1　マルコフ性とマルコフ決定過程　
　2.2.2　強化学習とバンディット問題　
　2.2.3　マルコフ決定過程における軌道の分布　
　2.2.4　リターン，状態価値関数，行動価値関数　
　2.2.5　強化学習における行動の探索と方策の評価の基本　
2.3　強化学習の種類　
　2.3.1　オンポリシー型とオフポリシー型　
　2.3.2　価値関数ベースと方策ベース　
　2.3.3　オンライン強化学習とオフライン強化学習　
　2.3.4　モデルフリー強化学習とモデルベース強化学習　
　2.3.5　エピソードベースとステップベース　
　2.3.6　強化学習と模倣学習　

3．価値関数の学習
3.1　ベルマン方程式　
　3.1.1　状態価値関数が満たすベルマン方程式　
　3.1.2　行動価値関数が満たすベルマン方程式　
　3.1.3　ベルマン最適方程式　
3.2　価値関数の推定とベルマン作用素の収束性　
　3.2.1　SARSA法による行動価値関数の推定　
　3.2.2　行動価値関数のベルマン作用素の収束性　
　3.2.3　状態価値関数の推定とベルマン作用素の収束性　
　3.2.4　ベルマン最適作用素とその収束性　
3.3　Q 学習　
　3.3.1　深層Q学習　
　3.3.2　Q学習における行動価値の目標値の過大推定　
　3.3.3　行動価値の過大推定への対処法　
　3.3.4　行動価値の分布を学習するQ学習　
　3.3.5　優先度付き再生　
　3.3.6　連続な行動空間のためのQ学習　
3.4　偏差と分散のバランスを考慮した累積報酬の計算　
　3.4.1　リターンの推定における偏差と分散　
　3.4.2　n-stepリターン　
　3.4.3　λ-リターン　
　3.4.4　TD(λ)　
　3.4.5　generalized advantage estimation　

4．オンポリシー型の方策の学習
4.1　方策の学習のアプローチ　
　4.1.1　価値反復法　
　4.1.2　方策反復法　
4.2　方策勾配法　
　4.2.1　サンプリングベースの方策勾配の導出　
　4.2.2　REINFORCEアルゴリズム　
　4.2.3　REINFORCEアルゴリズムにおける方策勾配の偏差と分散　
4.3　近似した価値関数を用いた方策勾配法　
　4.3.1　価値関数を用いた方策勾配の導出　
　4.3.2　関数近似を用いた方策勾配による方策の学習　
　4.3.3　actor-critic法における適合的な関数近似　
　4.3.4　ベースライン関数を用いた分散低減　
4.4　自然方策勾配とKL情報量に基づく拘束を用いた方策の更新　
　4.4.1　自然勾配　
　4.4.2　自然方策勾配　
　4.4.3　重要度サンプリングを用いた方策勾配　
　4.4.4　KL情報量の拘束を用いた方策勾配　
　4.4.5　trust region policy optimization（TRPO）　
　4.4.6　proximal policy optimization（PPO）　
4.5　オンポリシー型のアルゴリズムの実験的比較　

5．オフポリシー型の方策の学習
5.1　決定論的方策を用いたアルゴリズム　
　5.1.1　決定論的方策　
　5.1.2　決定論的方策に対する方策勾配　
　5.1.3　deep deterministic policy gradient（DDPG）　
　5.1.4　twin delayed deep deterministic policy gradient（TD3）　
5.2　密度推定としての方策学習　
　5.2.1　リターン重み付き尤度最大化による方策の学習　
　5.2.2　軌道ベースでの重み付き尤度最大化　
　5.2.3　ステップベースでの重み付き尤度最大化　
　5.2.4　正則化付き強化学習と密度推定による方策の学習　
　5.2.5　密度推定としての方策の学習におけるKL情報量の最小化　
5.3　エントロピー正則化付き強化学習アルゴリズム　
　5.3.1　エントロピー正則化付き強化学習における目的関数および価値関数　
　5.3.2　soft actor-critic　
　5.3.3　エントロピー正則化付き強化学習とボルツマン分布の関係　
5.4　KL 情報量による拘束を用いたオフポリシー型actor-critic法　
　5.4.1　軌道ベースでの議論/relative entropy policy search　
　5.4.2　ステップベースでのKL情報量に基づく正則化　
　5.4.3　maximum a posteriori policy optimization（MPO）　
5.5　オフポリシー型actor-critic法の学習効率を高める工夫　
　5.5.1　サンプル当りの方策の更新回数を効果的に増やすための工夫　
　5.5.2　行動価値関数の目標値の分布の非対称性に対する工夫　
5.6　オフポリシー型のアルゴリズムの実験的比較　

6．オフライン強化学習アルゴリズム
6.1　オフライン強化学習の問題設定　
6.2　オフライン強化学習における方策に対する正則化　
　6.2.1　TD3+BC　
　6.2.2　advantage-weighted actor-critic（AWAC）　
6.3　価値関数の学習に対する正則化　
　6.3.1　conservative Q-learning　
　6.3.2　behavior regularized actor-critic　
6.4　サンプル内学習による価値関数の学習　
6.5　データの多峰性に対応した方策モデルの使用　
　6.5.1　混合モデルを用いた方策　
　6.5.2　拡散モデルを用いた方策　
6.6　密度比に基づいたオフライン強化学習アルゴリズム　
　6.6.1　フェンシェル共役　
　6.6.2　密度比推定アルゴリズム：DualDICE　
　6.6.3　オフラインデータによる方策の更新　
6.7　オフライン強化学習アルゴリズムの性能比較　

7．モデルベース強化学習
7.1　モデルベース強化学習アルゴリズムの分類　
7.2　最適制御に基づくアプローチ　
　7.2.1　反復型線形二次制御　
　7.2.2　guided policy search　
7.3　近似された状態遷移モデルを用いたモデル予測制御　
7.4　仮想的なサンプルによる方策の学習　
7.5　状態遷移モデルを通した誤差伝播による方策の学習　
7.6　状態遷移モデルの表現と学習　

8．発展的話題
8.1　目標条件付き方策とその訓練　
　8.1.1　目標条件付き価値関数　
　8.1.2　目標条件付き方策の訓練　
8.2　階層型強化学習　
　8.2.1　階層型方策　
　8.2.2　階層型強化学習のメリット　
　8.2.3　階層型強化学習の難しさ　
　8.2.4　下位方策の事前訓練　
8.3　内的報酬による強化学習　
　8.3.1　状態遷移モデルに基づく内的報酬　
　8.3.2　試行錯誤データ内の状態の分布に基づく内的報酬　
8.4　複数の挙動を同時に学習する強化学習　
　8.4.1　潜在変数に条件付けられた方策と価値関数　
　8.4.2　複数の最適な方策を学習するための方策の訓練　
　8.4.3　メタ強化学習における潜在変数に条件付けられた方策の訓練　
8.5　マルチモーダルな生成モデルと強化学習　
　8.5.1　ロボティクスにおける状態と行動を含むデータセット　
　8.5.2　ロボティクスにおけるマルチモーダルな生成モデル　
　8.5.3　ロボティクスにおけるマルチモーダル生成モデルの訓練法　
　8.5.4　ロボティクス分野における生成モデルの評価　
　8.5.5　生成モデルの行動生成における役割　
　8.5.6　強化学習やロボティクスにおける生成モデルに関する考察　

引用・参考文献
索引

感想・レビュー

※以下の感想・レビューは、株式会社ドワンゴの提供する「読書メーター」によるものです。

株式会社　コロナ社

レビュー,書籍紹介・書評掲載情報強化学習アルゴリズム | コロナ社 https://www.coronasha.co.jp/np/resrcs/review.html?goods_id=8780 本書は深層学習以降の現代的なアルゴリズムに関する記述が圧倒的に充実している点が特徴です。PPOやSACといったデファクトスタンダードな手法に加え，類書では体系的に学ぶのが難しい「オフライン強化学習」や，生成モデル（拡散モデル）との融合領域まで網羅されています。～2026/01/20

レビューを書く、レビューをもっと見る

外部のウェブサイトに移動します

よろしければ下記URLをクリックしてください。

https://bookmeter.com/books/22940482

ご注意事項

ご注意
リンク先のウェブサイトは、株式会社ドワンゴの提供する「読書メーター」のページで、紀伊國屋書店のウェブサイトではなく、紀伊國屋書店の管理下にはないものです。
この告知で掲載しているウェブサイトのアドレスについては、当ページ作成時点のものです。ウェブサイトのアドレスについては廃止や変更されることがあります。
最新のアドレスについては、お客様ご自身でご確認ください。
リンク先のウェブサイトについては、「株式会社ドワンゴ」にご確認ください。

閉じる