内容説明
サイトリライアビリティエンジニアリング(SRE)とは、Googleで培われたシステム管理とサービス運用の方法論です。GoogleのSREチームの主要メンバーによって書かれた本書は、ソフトウェアのライフサイクル全体にコミットすることで世界最大規模のソフトウェアシステムがどのように構築、導入、監視、維持されているのかを解説します。はじめにリスク管理やサービスレベル目標、リリースエンジニアリングなどSREの行動の基礎となる原則について解説し、次にインシデント管理や障害の根本原因分析、SRE内でのソフトウェア開発など大規模分散コンピューティングシステムを構築し運用するSREの実践について詳述します。さらにSREのトレーニングやコミュニケーションなどの管理について紹介します。急速にスケールするサービスを高い信頼性で運用する方法を解説する本書はエンジニア必携の一冊です。
目次
第1部 イントロダクション(イントロダクション;SREの観点から見たGoogleのプロダクション環境)
第2部 原則(リスクの受容;サービスレベル目標 ほか)
第3部 実践(時系列データからの実践的なアラート;オンコール対応 ほか)
第4部 管理(SREの成長を加速する方法:新人からオンコール担当、そしてその先へ;割り込みへの対処 ほか)
第5部 まとめ(他の業界からの教訓;まとめ)
付録
著者等紹介
ベイヤー,ベッツィ[ベイヤー,ベッツィ] [Beyer,Betsy]
Googleに勤めるニューヨーク在住のテクニカルライターで、サイトリライアビリティエンジニアリングを専門としている。これまで、マウンテンビューのGoogleのデータセンター及びハードウェア運用チームや、世界中に配置されているデータセンターのためのドキュメントを書いてきた。ニューヨークに移る前はスタンフォード大学のテクニカルライティングの講師を務めていた。現在の職に就くまでに国際関係及び英文学を学び、スタンフォード大学とテュレーン大学から学位を得ている
ジョーンズ,クリス[ジョーンズ,クリス] [Jones,Chris]
Google App Engine担当のサイトリライアビリティエンジニア。サンフランシスコ在住で、以前はGoogleの広告統計の処理とフィード、データウェアハウジング、カスタマーサポートシステムを担当していた。その他に、アカデミアのIT、選挙運動のデータ分析の仕事、BSDのカーネルハックなどに携わり、その過程でコンピュータエンジニアリング、経済学、技術政策の学位を取得した。また公認技術士でもある
ペトフ,ジェニファー[ペトフ,ジェニファー] [Petoff,Jennifer]
アイルランドのダブリン在住のGoogleのSREチームのプログラムマネージャー。科学研究、エンジニアリング、人材、広告運用を含む幅広い領域でグローバルな大規模プロジェクトを管理してきた。化学産業界で8年を過ごした後にGoogleに加わった。スタンフォード大学から化学の博士号を、そしてロチェスター大学から化学と心理学の学位を取得している
マーフィー,ナイル・リチャード[マーフィー,ナイルリチャード] [Murphy,Niall Richard]
Google IrelandでAdsのSREチームを率いている。ほぼ20年にわたってインターネット業界に関わっており、現在はアイルランドのピアリングハブであるINEXのチェアパーソンである。数多くの技術論文や書籍の著者や共著者である。学位としてコンピュータサイエンス、数学、詩学を持っている。妻と2人の息子と共にダブリンに住んでいる
澤田武男[サワダタケオ]
2013年よりGoogleでSREとして、Google AdWords、Google Cloud Platformなどに関わる(本データはこの書籍が刊行された当時に掲載されていたものです)
※書籍に掲載されている著者及び編者、訳者、監修者、イラストレーターなどの紹介情報です。
感想・レビュー
※以下の感想・レビューは、株式会社ブックウォーカーの提供する「読書メーター」によるものです。
vinlandmbit
yshigeru
momotaro98
winery13
T. Okada