Ultimate社がGrafana IRMを活用して、ワークフロー、利用率などを改善した方法
「夜中に呼び出され目を覚まし、何が起きているのか分からないまま、事態を把握しなければならない。どのタブを開けばいいのか?ログはどこにあるのか?ダッシュボードとメトリクスはどこにあるのか?」
この言葉は、 Ultimate社のシニアソフトウェアエンジニア、Alexander Röselによるものです。オンコールの経験があるなら、このリフレインはあまりにもよく分かるでしょう。エンジニアは、インシデントが発生した際に複数のツールを駆使し、行ったり来たりしながら問題を解決するために奮闘することがよくあります。
それがまさに、Ultimate社がインシデントレスポンス管理(IRM)スタックを再評価するきっかけとなりました。Ultimate社の業界をリードするカスタマーサポート自動化プラットフォームは、AIを活用して企業が顧客満足度を向上させ、効率を高めるのに役立ちます。しかし、Grafana Cloudを導入する前のUltimate社のインシデントレスポンスは、決して自動化されていませんでした。
このQ&Aでは、Röselと彼の同僚であるプラットフォームエンジニアリングマネージャーのShashi Ravulaが、Ultimate社がなぜIRMのためにGrafana OnCallに移行したのか、そしてその努力がGrafana OnCallへの関心によってどのように先導されたのかを語ります。20人の開発者とエンジニアのチームがオンコールでデバッグ作業を分担する中で、移行がどのようにしてワークフローの改善、利用の増加、コミュニケーションの向上に繋がったか、またGrafana Cloudの使いやすさと機能性が会社全体のチームにどのような価値をもたらしたかについても共有しています。
最初にGrafana Cloudに惹かれたのは何でしたか?
Rösel: ShashiがGrafana OnCallについて話してくれたとき、私は非常に興味を持ちました。すでに社内でオープンソースのツールとしてGrafanaを使っていましたが、ダッシュボードやログ、オンコール関連の情報が複数の異なるアプリケーションに分散していたため、あまり活用されていませんでした。その結果、オンコールの開発者には多くの負担がかかっていました。
Ravula: 私たちはGrafana Cloudに移行したいと考えていましたが、コスト最適化の面もありました。複数の異なるツールにお金を分散させていましたが、[システム]は機能していたものの、開発者がそれらのツールを実際に理解するには多くの認知的負荷がかかりました。学習曲線があり、すべてのドキュメントが一箇所にまとまっていませんでした。
OnCallの導入はどのように役立ちましたか?
Rösel: 私たちはGrafanaエコシステムの中にいるので、アラートを受け取るとダッシュボードやウィジェットを添付できます。OnCallの周りの自動化も含めて、これらすべてが非常に役立ちます。
一貫した方法でインシデントを処理するのは非常に良いことです。インシデントを宣言すると、Slackのインシデントチャネルに自動的に人々が参加します。これはグローバルチャネルで発表されるため、他の全員も知ることができます。更新情報はGrafana OnCallからSlackに定期的に投稿されるため、プロセスの進捗を皆に知らせるために走り回る必要はありません。そしてGrafana Incidentは、Slack、メール、または直接Grafanaインターフェースで情報を引き出せるようにしてくれるので、これは非常に大きな影響を与えています。
そして、Grafana Cloudの広範なエコシステムも役立っていますか?
Rösel: 私がオンコールでアラートを受け取ったときに、統合しているサードパーティプロバイダーかどうかを確認する際、ログやメトリクスが揃っているので、はるかに安心できます。また、多くのダッシュボードが作成されているのも確認できます。人々はGrafana Cloudをより多く使用し、さらに多くの導入を求めています。PromQLやLogQLの使い方について、プログラマー以外の人々からも多くの質問があります。皆が興味を持っているのは、本当にシステムの理解を助けてくれるからです。
Ravula: Grafana Cloudの魅力の一つは、すべての機能を一つのスイートで利用できるという点です。これにより、開発者がダッシュボードやOnCallを簡単にナビゲートし、メトリクスをログやトレースのすぐ隣で確認できるようになります。
エンジニア以外の人々の関心も見られますか?
Rösel: カスタマーサクセス部門も、自分たちでアラートを設定できるようになりました。彼らは、自分たちのボットにアラートを作成し、顧客から問題が報告される前に、顧客レポートの動作やエラー率の上昇を把握できるようにしました。
採用は技術チームの間でどのように進んでいますか?
Ravula: 私たちは非常にスリムなプラットフォームチームであり、プロダクトチームがセルフサービスを可能にするが、すべてを手取り足取り教えるわけではないことを目指しています。Grafana Cloudの導入後、文化の変化があり、「自分たちで構築できる」と言うようになりました。そして、アレックスが挙げた例は非常に重要で、時にはカスタマーサクセスチームがGrafana Cloud、特にGrafana Alertingにもっと関与していると感じることがあり、それがエンジニアにプレッシャーを与え、「これらの人々が自分たちで作業をしているなら、なぜ私たちもそれをできないのか、そしてプラットフォームをもっと良くできないのか」と言わせるようになりました。
数字から見る
ダッシュボード
- 旧システム: ~20
- Grafana Cloud: 70
アクティブユーザー
- 旧システム: ~15
- Grafana Cloud: ~50
ログボリューム
- 旧システム: 7.8GB (変動有り)
- Grafana Cloud: 28GB
データソース
- 旧システム: 1
- Grafana Cloud: 22; Google Cloud Logs、Google Cloud Monitoring、Githubの統計とリリース、Sentryの問題、Apache DevLakeなどを含みます。
次に、UltimateとGrafana Cloudの計画はどうなっていますか?
(注:現在、UltimateはGrafana Cloud Logs、 Grafana Cloud k6、Grafanaの IRMツールを使用しています。今後はGrafana Faroの導入を検討し、Sentry APMサービスのコスト削減のためにトレースをGrafana Cloud Tracesにプッシュする予定です。)
Ravula: Grafana Cloud Tracesの導入を開始しています。これは当社のオブザーバビリティスタックで長い間欠けていた重要な要素の一つになるでしょう。これが整ったら、キャパシティプランニングやパフォーマンスボトルネックの改善、トラブルシューティング、根本原因の分析などでどこに効率化の余地があるかを確認したいと考えています。これにより、MTTRや他のDevOpsの指標にも影響を与えるでしょう。
私たちはまだ望む成熟度レベルには達していないことを認識していますが、現在のSLI、SLO、およびSLAのフレームワークを改善したいと考えています(Grafana SLOのデモを見ました)。ただし、オンコールに関しては、Grafana Labsが私たちのリクエストにタイムリーに対応し、フィードバックにすぐに対応してくれている点で素晴らしい仕事をしていると思います。この進展には非常に満足しており、これがインシデント管理のための完全なオブザーバビリティスイートになると確信しています。
Grafana Cloudは、メトリクス、ログ、トレース、ダッシュボードを開始するための最も簡単な方法です。私たちは、永遠に無料の手厚いプランと、あらゆるユースケースに対応するプランを提供しています。今すぐ無料でサインアップしましょう!