下林明正のブログ

思いついたことを適当に書いています。

SRE サイトリライアビリティエンジニアリング を読んだ

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

  • 作者:
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2017/08/12
  • メディア: 単行本(ソフトカバー)

サイトリライアビリティエンジニアリング(SRE)とは、Googleで培われたシステム管理とサービス運用の方法論です。 GoogleのSREチームの主要メンバーによって書かれた本書は、ソフトウェアのライフサイクル全体にコミットすることで世界最大規模のソフトウェアシステムがどのように構築、導入、監視、維持されているのかを解説します。

はじめにリスク管理やサービスレベル目標、リリースエンジニアリングなどSREの行動の基礎となる原則について解説し、次にインシデント管理や障害の根本原因分析、SRE内でのソフトウェア開発など大規模分散コンピューティングシステムを構築し運用するSREの実践について詳述します。 さらにSREのトレーニングやコミュニケーションなどの管理について紹介します。

急速にスケールするサービスを高い信頼性で運用する方法を解説する本書はエンジニア必携の一冊です。

ここ5〜10年くらいでクラウドコンピューティングの利用が基本になってその流れで以前よりも更にDevOps的な色が濃くなってきていると思っていて、となると時代の変化をキャッチアップする意味でも近隣領域っぽさのあるSREの在り方について勉強しておいた方が良かろうと判断してこの本を読むことにした。

500ページくらいある本なので全部読もうと思うと大変なのだけど、幸いにして社内に識者によるこの章を読むと良いというポインタがあったので実質的に読んだ量は半分くらい。まあ、本職SREではないので良いんじゃないでしょうか。

主に印象に残っている箇所としては、toilに費やされる時間を50%以下に抑えるという話(5章 トイルの撲滅)と、構造化された学習体験を提供しようという話(28章 SREの成長を加速する方法: 新人からオンコール担当、そしてその先へ)あたりが印象に残っている。 前者に関しては、自分の中の旧態依然とした「運用担当」との明確な違いだと感じたのと、後者に関しては構造化されていない学習体験を提供されがち・提供しがちなので正気に引き戻されたから。

他にもエラーバジェットとかポストモーテムとか有用な考え方が紹介されているけど、このあたりは一応この本を読む前から知っていたことだったのでさほど印象には残らなかった。

読んでみて個人的には正直そんなにおすすめという感じでも無かったけど、SREについて知りたいとか、SRE的な働き方が求められているという場合には(書名からして当たり前だけど)参考になると思うので、そういう場合には読む価値がある本なのかなと思った。

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

  • 作者:
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2017/08/12
  • メディア: 単行本(ソフトカバー)