出版社内容情報
生成AIの進展は社会や産業に大きな変革をもたらす一方、生成AIが生み出す有害なコンテンツや意図しない挙動といったリスクに関する課題が浮き彫りになっています。本書は、エンジニア、研究者を対象に、生成AIにおけるリスクとその対処法を体系的にまとめます。1章ではAI安全性を定義し、近年の動向を概説します。2章では現実に直面する脅威を分類・整理します。3章でOpenAIが公開しているモデルスペックを題材にAIの理想的な振る舞いについて考えます。第4章で安全性に関する評価方法について紹介したあと、5章ではレッドチーミングについて解説します。6章と7章でモデルレベル、システムレベル双方からの安全性向上技術を解説し、最終章でAI安全性の未来について考察します。安全な生成AIの開発と運用に必要となる知識を1冊にまとめます。
【目次】
第1章 AI安全性の基礎
1.1 AI安全性とは
1.2 AI安全性の社会的動向
1.3 まとめ
第2章 AIリスクの分類
2.1 不快表現を生成するリスク
2.2 情報漏洩リスク
2.3 誤情報リスク
2.4 悪用リスク
2.5 精神的依存リスク
2.6 その他の外部に潜むリスク
2.7 まとめ
第3章 AIの理想的な振る舞い
3.1 モデルスペックの構成
3.2 安全性ルール:制約の範囲を超えない
3.3 他組織のルール
3.4 まとめ
第4章 安全性評価技術:ベンチマーク
4.1 LLMを評価する安全性ベンチマーク
4.2 MLLMを評価する安全性ベンチマーク
4.3 まとめ
第5章 安全性評価技術:レッドチーミング
5.1 レッドチーミングの概要
5.2 攻撃手法の体系化
5.3 レッドチーミング実践
5.4 まとめ
第6章 安全性向上技術:モデルレベル
6.1 事前学習における安全性向上技術
6.2 SFTにおける安全性向上技術
6.3 RLHFにおける安全性向上技術
6.4 合成データアプローチ
6.5 推論フェーズにおける安全性制御
6.6 まとめ
第7章 安全性向上技術:システムレベル
7.1 ガードレール
7.2 ガードレールコンポーネント
7.3 ガードレールツールキット
7.4 まとめ
第8章 AI安全性の未来
8.1 対話から実行へ:エージェントAIのリスク
8.2 デジタルから物理世界へ:ロボティクスAIのリスク
8.3 人知を超えた知性へ:AGI/ASIのリスク
8.4 まとめ
付録A 実務クイックスタート



