出版社内容情報
2004年にGoogleが提唱したシステム運用の方法論「SRE(Site Reliability Engineering)」。ソフトウェア開発現場におけるアジャイル型への転換の中で、システムの利便性や安定性を「価値」ととらえ、その向上を目指すSREに注目が集まっています。大きなミッションである「システムの安定的な運用」のために、SREを担当するエンジニアには開発と運用、双方のスキルが必要です。
本書では、これからSREを学びたい、開発に取り入れたいというエンジニアを対象に、全体像を解説しつつ、今後の学習のための情報源を多く紹介します。基本的な知識だけでなく、代表的なプラクティスや組織の運用など、実践的な内容まで解説します。
【目次】
第1章 SREとは
1.1 SREの概要
1.1.1 サイトとは何か
1.1.2 信頼性とは何か
1.1.3 信頼性を制御するとはどういうことか
1.1.4 ソフトウェアエンジニアリングの原則と手法を運用に応用するとはどういうことか
1.2 なぜSREが重要なのか
1.2.1 信頼性が失われるとどうなるか
1.2.2 過剰な信頼性を追い求めるとどうなるか
1.3 SREの価値観
1.3.1 信頼性は機能の一部である
1.3.2 100%の信頼性を目指すわけではない
1.3.3 運用をエンジニアリングする
1.3.4 データにもとづく意思決定を行う
1.3.5 失敗から学ぶ、非難なき文化を構築する
1.4 SREに必要なスキル
1.4.1 どのSREにも求められる単一のスキルセットはない
1.4.2 中核となるスキル
1.5 本書の歩き方
1.5.1 信頼性を定義し組織で運用する
1.5.2 システムの状態を観測する
1.5.3 障害への向き合い方
1.5.4 手作業を自動化し効率化する
1.5.5 サービスのリリースを事前にレビューする
1.5.6 組織構造
1.5.7 今後の手引き
1.6 まとめ
第2章 信頼性を定義して組織で運用する
2.1 SLOを理解するための4つの要素
2.1.1 SLA
2.1.2 SLO
2.1.3 SLI
2.1.4 エラーバジェット
2.2 なぜSLOが重要なのか
2.3 エラーバジェットの理解と活用
2.3.1 エラーバジェットの基本的な考え方
2.3.2 エラーバジェットの目的と意義
2.3.3 エラーバジェットの管理と監視
2.4 SLO導入ステップ
2.4.1 1.クリティカルユーザージャーニーの特定
2.4.2 2.適切な目標値の設定
2.4.3 3.組織的な合意・運用体制
2.4.4 4.継続的改善のしくみ作り
2.5 まとめ
第3章 システムの状態を観測する
3.1 システムを観測するための基本概念
3.1.1 モニタリングとは
3.1.2 オブザーバビリティとは
3.1.3 モニタリングとオブザーバビリティのちがい
3.2 モニタリングの基本
3.2.1 The Four Golden Signals
3.2.2 USEメソッドによるリソースモニタリング
3.2.3 REDメソッドによるサービスモニタリング
3.2.4 各メソッドの活用シーン
3.3 アラート通知の基本と運
-
- 和書
- 古寺巡礼 (愛蔵版)