Toilを無くして徒然なるままに日暮し硯に向かひたい

生成AIアプリケーション開発などを行うエンジニアのブログです。

サイト信頼性エンジニア(SRE)として、インシデント時に迅速に初期対応する

Cloud MonitoringワークスペースGoogle Kubernetes Engine(GKE)クラスターを監視しているとします。

サイト信頼性エンジニア(SRE)として、インシデントが発生した際に、迅速にトリアージするには、

Cloud Monitoringワークスペースの定義済みダッシュボードをナビゲートし、メトリクスを追加してアラートポリシーを作成するとよいでしょう。

Cloud Monitoring

  • Google Cloudのサービスの一つで、まるで車の運転席にあるダッシュボードのように、システムの状態をリアルタイムで確認できる機能です。
  • GKEクラスターのCPUの使用率、メモリの使用量、ネットワークの通信量など、様々な情報を数値やグラフで表示してくれます。

GKEクラスタ

  • Google Kubernetes Engineの略で、コンテナと呼ばれる小さなプログラムをたくさん集めて動かすためのプラットフォームです。
  • ウェブサービスやモバイルアプリなど、様々なサービスを動かすために使われています。

インシデントを迅速にトリアージする

  • システムに何か問題が発生したときに、何が原因で、どの程度の影響があるのかを素早く判断し、対応することです。
  • 例えば、ウェブサイトが急に表示されなくなった場合、何が原因で表示されないのかを突き止め、復旧作業を進めます。