tjinjin's blog

インフラ要素多めの個人メモ

ITインフラ監視[実践]入門を読んだ

監視周りの考え方を整理したかったので、買ってみました。

感想

1章〜3章までは全体的な考え方の話で4章移行が具体的な設計の話でした。4章では具体的にこのミドルウェアのここを監視しろというような話もあったので、これから設計しなければいけないって人には役立ちそうな気がします。後半の章では監視サーバの置き場所やSaaSの利用用途、mackerelを使った監視の構築など実践的な内容もあってこの本1冊読んでおけば監視周りの基礎は問題なさそうという印象です。

メモ

  • 監視は5つのレイヤに分けて考える
    • 外形
    • アプリケーション
    • デーモン
    • リソース
    • サーバ
  • ラックの電力量は注意。サーバ再起動時は多めに電力がかかるかも
  • 監視項目・閾値の決め方は2パターン。リソース的な話とSLA的な話
  • 監視閾値は上限がないものは平常時×N倍という形で設定。上限があるものは割合で
  • 通常の監視感覚は1分から3分。問題おきたら10秒〜1分にするとよい
  • 外れ値を考慮にして、数回閾値にひっかかってから通知するのがベター
  • アプリケーション監視はアプリログとか監視用APIとかで
  • OS監視では、起動時間・ログインユーザ・ディスクマウント・Swap in・時刻・総プロセス・ゾンビプロセスも見たほうがいい
  • sshd/snmpd/ntpd/crond/syslogdとかも見とくとよさそう
  • 監視サーバをどうするかについて
  • 監視体制の話