Member-only story

PrometheusとGrafanaによるKubernetesクラスタのモニタリングとアラート機能(前半)

gavin.zhou
13 min readFeb 3, 2022

--

長い記事なので前半と後半に分けて投稿します。今回は前半です。

Why Are Monitoring and Alerting Important?

モニタリングとアラートはなぜ重要なのか?

ITチームは、インフラの監視の必要性をすでに認識しています。レガシーインフラの監視には長い歴史があり、多くの製品が存在します。それは、Nagios、Zabbixなどのツールです。

しかし、Kubernetesのエコシステムでは、適切なツールを持っていないと、多くのレベルのアブストラクションとトラブルシューティングが起こります。どれだけ多くのDevOpsエンジニアが、おなじみのエラーに直面していることでしょう。

スケジューリングの失敗 以下の述語にすべて合致するノードはありません::Insufficient CPUe

クラスタリソースの監視は、リアルタイムでフォローすることが不可欠です。従来のインフラと比較して、クラスターのリソースは常にスケーリングされ、変化しています。クラスタのどこでポッドが起動されるかはわかりません。このような理由から、クラスターの基盤となるリソースと、クラスター内部の健全性の両方を監視する必要があります

その上、アラートを活用していなければ、監視だけでは十分ではありません。OPSが一晩中、重要な生産クラスターのダッシュボードを見ているわけではないことは容易に想像できます。

Why Prometheus and Grafana?

豊富なアラート・監視ツールがある中で、特にPrometheusとGrafanaを選ぶ理由は何でしょうか?

Prometheus

Prometheus は、オープンソースのモニタリングツールです。当初はSoundcloudで開発されていましたが、2016年にCloud Native Computing Foundation(CNCF)の一部として独立したオープンソースプロジェクトとなっています。プロジェクトとしては・・・Kubernetes自体に次いで2番目です。これが、両コンポーネントが緊密に結合したプロジェクトとして関連付けられることが多い最初の理由です。

それに加えて、Prometheusは、そのアーキテクチャがプルベースであるという点で、他の多くのモニタリングツールとは異なります。Prometheus は、監視対象のコンポーネントから継続的にメトリクスを取得します。

--

--

No responses yet