Datadog/New Relic/Splunk のAIオブザーバビリティ機能|アラート疲れ対策の観点(要公式確認)

この記事をシェア:
目次 クリックで開く

現代のマイクロサービスアーキテクチャやサーバーレス、コンテナ混在環境において、従来の「閾値ベース」の監視は限界を迎えています。インフラエンジニアを苦しめる最大の問題は、障害発生時に数千件もの通知が飛んでくる「アラート疲れ(Alert Fatigue)」です。本質的な問題が1つであるにもかかわらず、依存関係にある全サービスからアラートが発火し、重要なシグナルがノイズの中に埋もれてしまうのです。

この課題を解決すべく、オブザーバビリティ(可視化)の主要ベンダーであるDatadog、New Relic、Splunkの3社は、AIおよびLLM(大規模言語モデル)を組み込んだ「AIオブザーバビリティ」機能を急速に強化しています。本記事では、これら3社のAI機能が「実務においてどうアラート疲れを軽減するのか」に焦点を当て、公式ドキュメントに基づいた詳細な機能比較と設定の要諦を解説します。

1. AIオブザーバビリティが解決する「監視の限界」

従来の監視ツールでは、「CPU使用率が90%を超えたらアラート」といった静的なルールを設定していました。しかし、現代のシステムでは以下のような問題が頻発します。

  • フラッピング: 閾値付近で数値が上下し、短時間に大量の通知が飛ぶ。
  • 連鎖的なアラート: データベースの遅延が原因で、上位のAPI、フロントエンド、認証サービスが同時にアラートを発報する。
  • 未知の異常: 閾値を設定していない箇所で、エラー率が緩やかに上昇し、気づいた時には致命的な障害になっている。

AIオブザーバビリティは、機械学習を用いて「普段の正常な状態(ベースライン)」を学習し、そこからの逸脱を検知します。また、LLMを活用することで、エンジニアが複雑なクエリを書かなくても「昨日のデプロイ以降、レスポンスが遅くなった原因は?」と自然言語で問いかけることが可能になりました。

2. Datadog:Bits AIとWatchdogによる自動化

DatadogのAI戦略は、バックグラウンドで常に動くWatchdogと、ユーザーと対話するBits AIの二段構えです。

Watchdogによる自動異常検知

Watchdogは、ユーザーが明示的にアラートを設定しなくても、メトリクス、ログ、トレースを自動的にスキャンします。例えば、特定の地域からのリクエストだけがエラーになっている、といった「特定のセグメントにおける異常」を自動で見つけ出し、エンジニアに提示します。

Bits AI(DevOps Copilot)

2023年に発表されたBits AIは、Datadogのプラットフォーム全体に統合された生成AIアシスタントです。インシデント発生時に「このアラートに関連する最近のコード変更はあるか?」と聞くと、GitHubのプルリクエストと相関させて回答します。これにより、調査時間を大幅に短縮できます。

実務においては、インフラのコスト管理も重要です。監視対象が増える中でのコスト最適化については、SaaSコストとオンプレ負債を断つ。バックオフィス&インフラの「標的」と現実的剥がし方の記事も参考になります。

3. New Relic:New Relic AI (Grook) の全方位アシスト

New Relicは、業界でいち早くLLMを統合した「New Relic AI」をリリースしました。その最大の特徴は、独自のデータプラットフォーム(NRDB)に蓄積された膨大なテレメトリデータを、自然言語で直接クエリできる点にあります。

Applied Intelligenceによるアラート集約

New Relicの「Applied Intelligence」は、数千件のアラートを「問題(Issue)」として1つにまとめます。相関関係の分析には、トポロジー情報(サービスの依存関係)、時間、メッセージ内容の類似性が使われます。これにより、Slackの通知チャンネルが埋め尽くされるのを防ぎます。

エラーの自動要約と根本原因分析

New Relicのエラープロファイル機能は、発生した例外のスタックトレースを解析し、「なぜこのエラーが起きているのか」を人間の言葉で要約します。開発者は、ログのジャングルを探索することなく、修正すべきコードの箇所を特定できます。

4. Splunk:Splunk AIによるセキュリティと運用の融合

Splunkは、大規模なログ解析とセキュリティ監視(SIEM)に強みを持ちます。そのAI機能は、特に大量のデータからパターンを見出すことに特化しています。

ITSI(IT Service Intelligence)の適応閾値

Splunk ITSIは、過去の履歴データに基づいて閾値を動的に調整する「Adaptive Thresholds」を提供します。例えば、「月曜日の朝のログインラッシュ」と「深夜のメンテナンス時間」では正常な負荷が異なります。これをAIが自動で判別し、誤報を防ぎます。

SPL生成アシスタント

Splunk特有のクエリ言語であるSPLは強力ですが、習得難易度が高いのが難点でした。Splunk AIは、日本語や英語の指示からSPLを自動生成する機能を提供しており、専門のデータアナリストでなくても高度な調査を可能にしています。

5. 主要3社のAI機能比較表

各社の公式情報を基に、AI機能の特性を比較しました。導入検討の際の判断基準として活用してください。

項目 Datadog New Relic Splunk
AIアシスタント名 Bits AI New Relic AI (Grook

AT
aurant technologies 編集

上場企業からスタートアップまで、数多くのデータ分析基盤構築・AI導入プロジェクトを主導。単なる技術提供にとどまらず、MA/CRM(Salesforce, Hubspot, kintone, LINE)導入によるマーケティング最適化やバックオフィス業務の自動化など、常に「事業数値(売上・利益)」に直結する改善実績多数。

この記事が役に立ったらシェア: