ゼロから作るDeep Learning〈4〉強化学習編

個数:
  • ポイントキャンペーン

ゼロから作るDeep Learning〈4〉強化学習編

  • ウェブストアに191冊在庫がございます。(2024年04月29日 03時51分現在)
    通常、ご注文翌日~2日後に出荷されます。
  • 出荷予定日とご注意事項
    ※上記を必ずご確認ください

    【ご注意事項】 ※必ずお読みください
    ◆在庫数は刻々と変動しており、ご注文手続き中に減ることもございます。
    ◆在庫数以上の数量をご注文の場合には、超過した分はお取り寄せとなり日数がかかります。入手できないこともございます。
    ◆事情により出荷が遅れる場合がございます。
    ◆お届け日のご指定は承っておりません。
    ◆「帯」はお付けできない場合がございます。
    ◆画像の表紙や帯等は実物とは異なる場合があります。
    ◆特に表記のない限り特典はありません。
    ◆別冊解答などの付属品はお付けできない場合がございます。
  • ●店舗受取サービス(送料無料)もご利用いただけます。
    ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら
  • サイズ A5判/ページ数 355p/高さ 21cm
  • 商品コード 9784873119755
  • NDC分類 007.1
  • Cコード C3055

出版社内容情報

超人気シリーズの第4弾--今回のテーマは強化学習!
人気シリーズの第4弾。今回のテーマは強化学習です。実際のコードを提示し動かしながら学ぶという本シリーズのスタイルを踏襲し、外部ライブラリに頼らず、強化学習を支える基本的な技術やアイデアをゼロから実装しながら学びます。本書では読者が強化学習独特の理論を確実にマスターできるように、強化学習という難解なテーマの構成要素の一つひとつを「理論」と「実践」の双方から丁寧に解説します。数式だけで説明する理論書とは異なり、読者はコードを通してハッとする気づきを数多く得られるでしょう。

内容説明

人気シリーズの第4弾。今回のテーマは強化学習です。実際のコードを提示し動かしながら学ぶという本シリーズのスタイルを踏襲し、外部ライブラリに頼らず、強化学習を支える基本的な技術やアイデアをゼロから実装しながら学びます。本書では読者が強化学習独特の理論を確実にマスターできるように、強化学習という難解なテーマの構成要素の一つひとつを「理論」と「実践」の双方から丁寧に解説します。数式だけで説明する理論書とは異なり、読者はコードを通してハッとする気づきを数多く得られるでしょう。

目次

1章 バンディット問題
2章 マルコフ決定過程
3章 ベルマン方程式
4章 動的計画法
5章 モンテカルロ法
6章 TD法
7章 ニューラルネットワークとQ学習
8章 DQN
9章 方策勾配法
10章 さらに先へ
付録

著者等紹介

斎藤康毅[サイトウコウキ]
1984年長崎県対馬生まれ。東京工業大学工学部卒、東京大学大学院学際情報学府修士課程修了。現在、企業にて人工知能に関する研究開発に従事(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。

感想・レビュー

※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。

富士獣

2
(非深層)強化学習の入門としてとても良かった。 最適化やゲームAI作成の中で知りたかったこと、ボンヤリ考えていたことが定式化されていて、勉強になった ゼロつく1や3に比べると「手を動かして実装レベルで理解する」より「理論の直感や数式変形が分かれば、実装はまぁ自然にできる」感が強いけど、数式変形の解説も丁寧で追いやすい。 深層強化学習入門としてもさわりは分かりやすいけど、少なくとも自分は、理論寄りの本と実践寄りの本をあと1冊ずつ読まないと「深層強化学習を実課題に適用できる」レベルには至らないなぁと思った。2024/01/22

みるか

2
シリーズ 4 作目.本作は強化学習がテーマである.報酬の確率分布が定常で与えられるバンディット問題から始めて,報酬の確率分布が非定常な問題,マルコフ決定過程,ベルマン方程式の導出,と話題が進んでいく.強化学習と言うと,エージェントが環境と相互に作用しながら,何らかの報酬が最大化されるように行動を学習する方法論,くらいのお気持ち程度の理解しかしていなかったが,本書は強化学習の初歩から流行りの DQN まで詳細されている.2022/04/27

ᚹγअәc0̸א

1
方策勾配定理の導出がカバーされており有難い。

Go Extreme

1
バンディット問題: 機械学習の分類と強化学習 バンディット問題 バンディットアルゴリズム バンディットアルゴリズムの実装 非定常問題 マルコフ決定過程: MDPとは 環境とエージェントの定式化 MDPの目標 ベルマン方程式 動的計画法 TD法 ニューラルネットワークとQ学習 DQN 方策勾配法 さらに先へ: 深層強化学習アルゴリズムの分類 方策勾配法系列の発展アルゴリズム DQN系列の発展アルゴリズム 深層強化学習の課題と可能性2022/07/12

naoki85

0
E 資格の勉強も兼ねて取り組んだ。座学だけではピンと来なかった方策の話もなんとなく理解できた気がした。 とはいえ、一度けでは身についた感覚はないので、何回か捲ることになりそうだ。2023/07/17

外部のウェブサイトに移動します

よろしければ下記URLをクリックしてください。

https://bookmeter.com/books/19014404
  • ご注意事項

    ご注意
    リンク先のウェブサイトは、株式会社ブックウォーカーの提供する「読書メーター」のページで、紀伊國屋書店のウェブサイトではなく、紀伊國屋書店の管理下にはないものです。
    この告知で掲載しているウェブサイトのアドレスについては、当ページ作成時点のものです。ウェブサイトのアドレスについては廃止や変更されることがあります。
    最新のアドレスについては、お客様ご自身でご確認ください。
    リンク先のウェブサイトについては、「株式会社ブックウォーカー」にご確認ください。