下林明正のブログ

個人的かつ雑多なブログです。

入門 監視を斜め読みした

会社で全員野球みたいな感じで障害対応していたけど、自分はDevOpsの波に完全に乗り遅れていて参加できなかったのでどう勉強したら良いか聞いていたところ、この本を読めばなぜ全員野球でやっているのか分かるということだったので読むことにした。

入門 監視 ―モダンなモニタリングのためのデザインパターン

入門 監視 ―モダンなモニタリングのためのデザインパターン

本書は、システムのどの部分をどのように監視すべきか、また監視をどのように改善していくべきかについて解説する書籍です。前半で監視のベストプラクティス、デザインパターン/アンチパターンを示して、監視の基本原則を詳しく説明し、後半でフロントエンド、アプリケーション、サーバ、ネットワーク、セキュリティの各テーマで強力な監視の基盤を設計して実装するための方法を示します。日本語版では、松木雅幸(@songmu)氏による監視SaaSの導入や活用方法を付録として収録しています。

結論から言うとこの本を読んでもなぜ障害対応を全員野球でやるのかは書いてない。別の人に聞いたところ多分そのことが書いてあるのはSRE本の方だろうということだった。

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

  • 作者: 澤田武男,関根達夫,細川一茂,矢吹大輔,Betsy Beyer,Chris Jones,Jennifer Petoff,Niall Richard Murphy,Sky株式会社玉川竜司
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2017/08/12
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログ (1件) を見る

ボケていたのか何なのかは不明。

まあそんなに真剣に読まなくても良いんじゃないか、というアドバイスをもらったので就業後に2~3時間くらい?でガーッと斜め読みした。

読んでみた感想としては、我社は監視するためのSaaSを売っていたりする会社なのでこの本に書いてあるようなことは一通りちゃんとやっていて知見が社内に展開されている状態なので、素晴らしいことだなと思った。また、なぜあの監視項目がああいう感じになっているのかとか、この数値はどう見ると良いのかとか、そういうところも少しだけ深堀りできた。

特に印象に残っていることは以下の2点。

  • ユーザーに問題が起きてなければそれは問題ではないということで、ローレベルなメトリクスよりもハイレベルなメトリクスを見るべき。ただし全てを抽象化して表現するのは難しいので、次善の策としてローレベルなメトリクスの列挙から問題を検知できるようにもするべき、というような話
    • これは自分の解釈なので間違ってるかも
  • キャパシティプランニングについて1ページくらいしか割いてなくてExcelとか使ってグラフ描いて予測しましょうという感じだったけど、章末のまとめに「あなたはキャパシティプランニングの基礎を学びました」って書いてあってさすがに雑では??これで良いのか??と笑ってしまった

この本はちゃんと読む場合でもサクッと読めそうだけど、SRE本ってやつはこの本の3倍くらいの厚みがあるっぽい。でも読まないとなあ。読むべき本が多すぎるし本は読めていない……(失敗の本質を積読してしまっている)。