ゼロから作るＤｅｅｐ Ｌｅａｒｎｉｎｇ〈４〉強化学習編

個数：

ゼロから作るＤｅｅｐ　Ｌｅａｒｎｉｎｇ〈４〉強化学習編

斎藤康毅【著】
価格 ¥3,960（本体¥3,600）
オライリー・ジャパン（2022/04発売）
ポイント 36pt

ウェブストアに39冊在庫がございます。（2026年07月22日 19時20分現在）
通常、ご注文翌日～2日後に出荷されます。
出荷予定日とご注意事項
※上記を必ずご確認ください

【ご注意事項】 ※必ずお読みください
◆在庫数は刻々と変動しており、ご注文手続き中に減ることもございます。
◆在庫数以上の数量をご注文の場合には、超過した分はお取り寄せとなり日数がかかります。入手できないこともございます。
◆事情により出荷が遅れる場合がございます。
◆お届け日のご指定は承っておりません。
◆「帯」はお付けできない場合がございます。
◆画像の表紙や帯等は実物とは異なる場合があります。
◆特に表記のない限り特典はありません。
◆別冊解答などの付属品はお付けできない場合がございます。
●3Dセキュア導入とクレジットカードによるお支払いについて
●店舗受取サービス（送料無料）もご利用いただけます。
ご注文ステップ「お届け先情報設定」にてお受け取り店をご指定ください。尚、受取店舗限定の特典はお付けできません。詳細はこちら

サイズ A5判／ページ数 355p／高さ 21cm
商品コード 9784873119755
NDC分類 007.1
Cコード C3055

出版社内容情報

超人気シリーズの第4弾－－今回のテーマは強化学習！
人気シリーズの第4弾。今回のテーマは強化学習です。実際のコードを提示し動かしながら学ぶという本シリーズのスタイルを踏襲し、外部ライブラリに頼らず、強化学習を支える基本的な技術やアイデアをゼロから実装しながら学びます。本書では読者が強化学習独特の理論を確実にマスターできるように、強化学習という難解なテーマの構成要素の一つひとつを「理論」と「実践」の双方から丁寧に解説します。数式だけで説明する理論書とは異なり、読者はコードを通してハッとする気づきを数多く得られるでしょう。

内容説明

人気シリーズの第４弾。今回のテーマは強化学習です。実際のコードを提示し動かしながら学ぶという本シリーズのスタイルを踏襲し、外部ライブラリに頼らず、強化学習を支える基本的な技術やアイデアをゼロから実装しながら学びます。本書では読者が強化学習独特の理論を確実にマスターできるように、強化学習という難解なテーマの構成要素の一つひとつを「理論」と「実践」の双方から丁寧に解説します。数式だけで説明する理論書とは異なり、読者はコードを通してハッとする気づきを数多く得られるでしょう。

１章　バンディット問題
２章　マルコフ決定過程
３章　ベルマン方程式
４章　動的計画法
５章　モンテカルロ法
６章　ＴＤ法
７章　ニューラルネットワークとＱ学習
８章　ＤＱＮ
９章　方策勾配法
１０章　さらに先へ
付録

著者等紹介

斎藤康毅［サイトウコウキ］
１９８４年長崎県対馬生まれ。東京工業大学工学部卒、東京大学大学院学際情報学府修士課程修了。現在、企業にて人工知能に関する研究開発に従事（本データはこの書籍が刊行された当時に掲載されていたものです）
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。

感想・レビュー

※以下の感想・レビューは、株式会社ドワンゴの提供する「読書メーター」によるものです。

kaida6213

間違いなく一番わかり易い強化学習の本。強化学習の本って色々な話題に飛んで全体像が分かりにくい本が多いがちゃんと体系立ててまとめてある。DQN以降駆け足な感じはあるが技術の要所要所は押さえてありむしろ分かりやすいと思う。あとはこれを糧にして論文を読むべし。2026/03/22

takao

ふむ2024/12/11

富士獣

（非深層）強化学習の入門としてとても良かった。最適化やゲームAI作成の中で知りたかったこと、ボンヤリ考えていたことが定式化されていて、勉強になったゼロつく1や3に比べると「手を動かして実装レベルで理解する」より「理論の直感や数式変形が分かれば、実装はまぁ自然にできる」感が強いけど、数式変形の解説も丁寧で追いやすい。深層強化学習入門としてもさわりは分かりやすいけど、少なくとも自分は、理論寄りの本と実践寄りの本をあと1冊ずつ読まないと「深層強化学習を実課題に適用できる」レベルには至らないなぁと思った。2024/01/22

みるか

シリーズ 4 作目．本作は強化学習がテーマである．報酬の確率分布が定常で与えられるバンディット問題から始めて，報酬の確率分布が非定常な問題，マルコフ決定過程，ベルマン方程式の導出，と話題が進んでいく．強化学習と言うと，エージェントが環境と相互に作用しながら，何らかの報酬が最大化されるように行動を学習する方法論，くらいのお気持ち程度の理解しかしていなかったが，本書は強化学習の初歩から流行りの DQN まで詳細されている．2022/04/27

ᚹγअәc0̸א

方策勾配定理の導出がカバーされており有難い。

レビューを書く、レビューをもっと見る

外部のウェブサイトに移動します

よろしければ下記URLをクリックしてください。

https://bookmeter.com/books/19014404

ご注意事項

ご注意
リンク先のウェブサイトは、株式会社ドワンゴの提供する「読書メーター」のページで、紀伊國屋書店のウェブサイトではなく、紀伊國屋書店の管理下にはないものです。
この告知で掲載しているウェブサイトのアドレスについては、当ページ作成時点のものです。ウェブサイトのアドレスについては廃止や変更されることがあります。
最新のアドレスについては、お客様ご自身でご確認ください。
リンク先のウェブサイトについては、「株式会社ドワンゴ」にご確認ください。

閉じる