オープンソースのオブザーバビリティソフトウェアの未来を一緒に築きましょう 求人情報

私たちがサポートしているオープンソースプロジェクトをチェックしてください ダウンロード

特集

Getting started with grafana LGTM stack

Grafana LGTMスタックを使い始める

LGTMスタックの使い方のデモ: ログのLoki、可視化のGrafana、トレースのTempo、メトリクスのMimir

We cannot remember your choice unless you click the consent notice at the bottom.

企業がメトリクス管理のためにOSSからGrafana Cloudへ移行する理由

企業がメトリクス管理のためにOSSからGrafana Cloudへ移行する理由

2024-01-30 1 min

2022年に、私たちはGrafana Mimirを導入しました。これは世界で最もスケーラブルで高性能なオープンソースの時系列データベースです。発売以来、Mimirの規模を拡大し、使いやすさを向上させ、クエリパフォーマンスを強化するために取り組んできました。

しかし、これらの進歩にもかかわらず、セルフホストおよびセルフマネージのOSSツールには課題があることを理解しています。

「オープンソースは大好きですが、途中で見失ってしまったのは、そもそも何を目指していたのかということでした。オブザーバビリティを効果的でセルフサービスかつ低コストにすることです」と、TeleTrackingのソフトウェアエンジニアリングディレクターであるOren Lionは、同社のロジスティクスエンジニアリング副社長であるTim Schrubenとの共著のブログ記事で書いています。この記事では、OSSからGrafana Cloudへの移行に焦点を当て、LionとSchrubenは「運用が拡大するにつれ、マネージドソリューションが必要だと気付きました」と述べています。

このような気付きが、多くの観測チームがOSSからGrafana Cloud Metrics、つまりGrafana Cloudの完全マネージドで非常にスケーラブルなメトリクスサービスに切り替えるきっかけとなっています。この記事では、Grafana Cloudへの移行の主なメリットを、既に移行を完了した4つの組織の視点から探ります。

1. メトリクス量を33%削減し、コストを削減

次世代のアイデンティティセキュリティソリューションを提供する大手企業であるSailPointは、Grafana Cloud Metricsに移行する前に、スケールに伴うオブザーバビリティの課題とその関連コストに直面していました。

同社のPrometheusサーバーが成長するにつれ、AWSインスタンスの上限に達し始めました。観測チームはインフラストラクチャを水平にスケールし、最初はCortexを使用し、後に自己管理のGrafana Mimirを使用しました。

しかし、自社ホストのメトリクスにかかる総所有コストを評価したところ、インフラストラクチャコストとメンテナンスコストを考慮すると、月々の支出が非常に高くなっていることに気付きました。これに対抗するために、Grafana Cloud Metricsに目を向けました。

「数字を計算してみると、Grafana Labsはすべてをより安価に運用し、エンジニアリングチームの負担を軽減してくれることが分かりました」とLopez氏は言います。「これが私たちの『アハ体験』でした。」

SailPointはまた、Grafana Cloudのメトリクスマネジメント機能であるAdaptive Metricsを使い始めました。Adaptive Metricsは、未使用または部分的に使用されているメトリクスを集約して低カーディナリティバージョンに変換し、コストを削減することができます。数か月以内に、Adaptive Metricsの提案をエンジニアリングチームの内部努力と組み合わせて適用することで、SailPointはメトリクス量を33%削減し、コストを管理しやすくなりました。

SailPointがスケールし続け、新しいサービスを提供している間も、「Adaptive Metricsは私たちが効率的に成長するのに大いに役立っています…メトリクスやコストを膨らませることなく」とLopez氏は述べています。

SailPointsがアクティブシリーズの制限を追跡する様子を示すスクリーンショット
SailPointがアクティブシリーズの制限をどのように追跡しているかをご紹介します。

Grafana Cloudを使用してSailPointがメトリクスのカーディナリティとコストを管理する方法についてさらに詳しく読む。

2. システムの「子守り」に費やす時間を減らし、イノベーションにもっと時間を費やす

人気のゲームを構築し、ブロックチェーン技術を使用して本物のデジタルコレクタブルを検証するDapper Labsは、監視の旅を自社のPrometheusインスタンスをデータストアとして使用し、Grafana OSSを可視化レイヤーとして使用することから始めました。しかし、会社がスケールするにつれて、SREチームはストレージ管理とデータ保持に苦労するようになりました。

「ストレージの行き先を慎重に管理し、保持期間を確認し、Prometheusノードが過去6か月のデータにわたってクエリを実行できるように十分に強力であることを確認するために時間を費やすことは、すべて頭痛の種でした」と当時のDapper LabsのSRE責任者は述べています。

これらの頭痛の種を取り除くために、SREチームはGrafana Cloudに切り替えました。プロダクトのユーザーが100倍に増加し、メトリクスが20万からほぼ400万のアクティブシリーズに膨れ上がったにもかかわらず、チームは移行に伴う時間の節約から大いに恩恵を受けました。当時、オブザーバビリティポッドにはわずか6人しかいませんでしたが、Grafana Cloudは、システムの保守やアップグレードを心配することなく、はるかに大規模なエンジニアリング組織をサポートし、戦略的プロジェクトに集中することを可能にしました。

Dapper LabsのSREリーダーは次のように述べています。「子守りを必要とするものはすべて、私たちにとって機会損失です。」

Dapper Labsのメトリクス用ダッシュボードのスクリーンショット
Dapper Labsのメトリクス用ダッシュボード。

Dapper LabsがどのようにしてGrafana Cloudを活用してオブザーバビリティ戦略を変革したのか、詳しくはこちらをご覧ください。

3. クエリ速度の向上と信頼性の改善

デジタル広告キャンペーンの作成、管理、最適化を支援するSaaSプラットフォームを提供する技術会社、The Trade Deskは、2009年の設立以来、従業員数と時価総額の両方で大きく成長してきました。

この成長を支えるために、同社は世界的なITインフラを非常に高いスケールで運営しています。Grafana Cloudに移行する前は、独自のストレージレイヤーをホストしていましたが、そのレイヤーはスケーリングが難しく、サポートが難しい上、必ずしも信頼性が高くありませんでした。

「しばしば、個々のノードがストレージ不足になったり、技術のシングルスレッドの性質上、過負荷になったりしていました」と、現在The Trade Deskのシニアディレクター、プロダクションエンジニアリングであるCarl Johnson氏は述べています。「開発者や会社の人々は、クエリの完了や欠落しているメトリクスの信頼性に対する不満で疲れ果てていました。」

The Trade DeskはすでにビジュアライゼーションにGrafanaを使用しており、SREチームのメンバーはGrafana LabsがGrafana Cloudを通じてバックエンドストレージも提供していることを知っていました。POCとトライアルランが成功した後、チームは移行を決定し、その恩恵をすぐに享受しました。

「クエリ時間が即座に改善され、多くの開発者がその変化に気付きました。また、信頼性もかなり向上しました」と、現在同社のリードスタッフソフトウェアエンジニア、SREであるPatrick O’Brien氏は述べています。

この移行により、エンジニアリングチームに対する苦情が減り、トラブルシューティングも減少したとJohnson氏は述べています。「ホストされたプラットフォームに移行してから、メトリクスの使用に対するフラストレーションはほぼ一夜にして改善されました。」

クエリ時間が即座に改善され、多くの開発者がその変化に気付きました。また、信頼性もかなり向上しました。

-Patrick O’Brien、現在はThe Trade DeskのLead Staff Software Engineer、SRE

The Trade DeskがGrafana Cloudを使用して、監視システムをより迅速に、簡単に、信頼性の高いものにした方法について詳しく読む。

4. オブザーバビリティアプローチの集中化と効率化

統合型ヘルスケア運営プラットフォームプロバイダーのTeleTrackingは、独自のオブザーバビリティのストーリーを持っています。同社は、グローバルなサービスの視認性を高めるため、SaaSオブザーバビリティツールからOSS(Grafana、Prometheus、Thanosの組み合わせ)に移行し、AWSとMicrosoft Azureの両方でさまざまなクラウドリソースを使用して運営していました。

しかし、業務が拡大するにつれて、より効率的でコスト効果の高いオブザーバビリティソリューションを求めるようになりました。そこで、彼らは再びSaaSツールに切り替え、現在はGrafana Cloudをメトリクスとログのために使用し、Prometheusと一緒にモダンで集中化されたオブザーバビリティスタックを作り上げました。

「これらのツールは、私たちのサービスに対する視認性を高めるだけでなく、進化し続ける開発者体験に対する重要なフィードバックメカニズムとして機能します」と、TeleTrackingのソフトウェアエンジニアリング、プロダクティビティエンジニアリングディレクターのOren Lionは、同社の物流エンジニアリング副社長Tim Schrubenとの共著による最近のブログ記事で述べています。

TeleTrackingが特に惹かれたのは、Grafana Cloud Metricsの集中化されたアプローチであり、リモートライトモデルを使用し、Grafanaダッシュボードでメトリクスとログを並べて視覚化できる点でした。

チームは、新しいサービスやエクスポーターごとに支出が増加することに気付き、Adaptive Metricsも実装しました。最終的に、この移行により、Grafana Cloud Metricsの支出を50%削減することができました。

「Adaptive Metricsを使用すると、アクティブにデバッグしているときに粒度の高い詳細を提供するラベルが必要な場合にメトリクスの詳細度を高めることができます」とSchrubenは書いています。「デバッグが完了した後は、ラベルを再集計することで、Adaptive Metricsを使用してメトリクスの詳細度を低減することができます。」

サービスライン、サービス、およびイベントごとのイベント処理を示すダッシュボード
特定のサービスラインにおける特定のサービスのイベントタイプを処理するのに要した時間。

Grafana Cloudを使ったTeleTrackingのオブザーバビリティの取り組みについて詳しく知る。

Grafana Cloudは、メトリクス、ログ、トレース、ダッシュボードを使い始めるのに最適な方法です。私たちは、寛大な永久無料のプランとあらゆる用途に対応するプランを提供しています。今すぐ無料でサインアップしましょう