出版社内容情報
2004年にGoogleが提唱したシステム運用の方法論「SRE(Site Reliability Engineering)」。ソフトウェア開発現場におけるアジャイル型への転換の中で、システムの利便性や安定性を「価値」ととらえ、その向上を目指すSREに注目が集まっています。大きなミッションである「システムの安定的な運用」のために、SREを担当するエンジニアには開発と運用、双方のスキルが必要です。
本書では、これからSREを学びたい、開発に取り入れたいというエンジニアを対象に、全体像を解説しつつ、今後の学習のための情報源を多く紹介します。基本的な知識だけでなく、代表的なプラクティスや組織の運用など、実践的な内容まで解説します。
【目次】
第1章 SREとは
1.1 SREの概要
1.1.1 サイトとは何か
1.1.2 信頼性とは何か
1.1.3 信頼性を制御するとはどういうことか
1.1.4 ソフトウェアエンジニアリングの原則と手法を運用に応用するとはどういうことか
1.2 なぜSREが重要なのか
1.2.1 信頼性が失われるとどうなるか
1.2.2 過剰な信頼性を追い求めるとどうなるか
1.3 SREの価値観
1.3.1 信頼性は機能の一部である
1.3.2 100%の信頼性を目指すわけではない
1.3.3 運用をエンジニアリングする
1.3.4 データにもとづく意思決定を行う
1.3.5 失敗から学ぶ、非難なき文化を構築する
1.4 SREに必要なスキル
1.4.1 どのSREにも求められる単一のスキルセットはない
1.4.2 中核となるスキル
1.5 本書の歩き方
1.5.1 信頼性を定義し組織で運用する
1.5.2 システムの状態を観測する
1.5.3 障害への向き合い方
1.5.4 手作業を自動化し効率化する
1.5.5 サービスのリリースを事前にレビューする
1.5.6 組織構造
1.5.7 今後の手引き
1.6 まとめ
第2章 信頼性を定義して組織で運用する
2.1 SLOを理解するための4つの要素
2.1.1 SLA
2.1.2 SLO
2.1.3 SLI
2.1.4 エラーバジェット
2.2 なぜSLOが重要なのか
2.3 エラーバジェットの理解と活用
2.3.1 エラーバジェットの基本的な考え方
2.3.2 エラーバジェットの目的と意義
2.3.3 エラーバジェットの管理と監視
2.4 SLO導入ステップ
2.4.1 1.クリティカルユーザージャーニーの特定
2.4.2 2.適切な目標値の設定
2.4.3 3.組織的な合意・運用体制
2.4.4 4.継続的改善のしくみ作り
2.5 まとめ
第3章 システムの状態を観測する
3.1 システムを観測するための基本概念
3.1.1 モニタリングとは
3.1.2 オブザーバビリティとは
3.1.3 モニタリングとオブザーバビリティのちがい
3.2 モニタリングの基本
3.2.1 The Four Golden Signals
3.2.2 USEメソッドによるリソースモニタリング
3.2.3 REDメソッドによるサービスモニタリング
3.2.4 各メソッドの活用シーン
3.3 アラート通知の基本と運
内容説明
SREの基本知識と実践のための情報源を、第一線のエンジニアが厳選。さまざまなプラクティスの紹介から組織構造の選択、SREの導入方法まで、この1冊で身につけられます。
目次
第1章 SREとは
第2章 信頼性を定義して組織で運用する
第3章 システムの状態を観測する
第4章 障害を学びにつなげる
第5章 障害対応のプロセスや体制を作る
第6章 手作業を自動化し効率化する
第7章 サービスのリリースを事前にレビューする
第8章 SREの組織構造
第9章 SREの実践
著者等紹介
北野勝久[キタノカツヒサ]
一般社団法人SRE NEXT代表理事。日本初のSREに関するカンファレンス「SRE NEXT」のFounder。勉強会「SRE Lounge」の運営も行っている。株式会社スタディストのCTOを務めつつ、自社内のSRE活動にも携わる
近藤健司[コンドウタケシ]
教育系ITサービス開発組織の部長。SLOの組織への導入をリードした。SRE NEXT2020、2022、2023、2024に登壇。2020、2024、2025にコアスタッフとして参加
小林良太郎[コバヤシリョウタロウ]
インフラエンジニアやSREを経験し、現在はSaaS型オブザーバビリティプラットフォームベンダーのTAMとして、日夜オブザーバビリティやモニタリングの重要性を顧客に説いている。SRE NEXT 2024、2025にコアスタッフとして参加
渡部龍一[ワタナベリュウイチ]
株式会社IVRy所属。SREとして、電話AI SaaSの信頼性向上に注力。障害対応やEOL対応に加え、SLI/SLOの設計や運用、システム改善を通じて、継続的なサービス品質向上に取り組んでいる。SRE NEXT 2023、2024、2025にコアスタッフとして参加。2025においてはCo‐Chairを務める
齊藤拓朗[サイトウタクロウ]
株式会社ビズリーチ所属。「HRMOS(ハーモス)」シリーズのSREとして、複数プロダクトの自動化、信頼性向上、パフォーマンス最適化、インシデントレスポンスなどを推進。「SRE Lounge」、「SRE NEXT」のコアスタッフとしても活動し、コミュニティの輪を広げている
柘植翔太[ツゲショウタ]
株式会社サイバーエージェントの横断SRE組織のGeneral Manager兼Principal SREとして、社内外のサービス・組織へのSRE推進や組織開発、人材育成支援などを行っている。これまでに50以上のサービス・システムへの技術支援やSRE推進、サービス立ち上げなどを経験。SRE NEXT 2024のCO‐Chair
横山達男[ヨコヤマタツオ]
株式会社マネーフォワード所属。SRE組織の副部長/テックリードとして、各プロダクト組織におけるSREの導入や推進、また全社横断的に利用するSaaS(Datadog、AWSなど)のコスト管理や利用の啓蒙活動、SREの育成を担当している。SRE NEXT 2023、2024、2025のコアスタッフ(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。