



深夜のアラート対応で、メトリクスとログのタイムスタンプを必死に突き合わせる――。 そんな「情報の分断」による認知負荷に悩まされる日々を、AIの力で終わりにしませんか? 前著『SRE自動化ハンドブック Vol.1』で実現した「ログ検索の対話型AI」は、本書でさらなる進化を遂げました。 続編となる本書のテーマは、SREの前に立ちはだかる大きな壁、「メトリクスとログの融合」です。 本来、システムの状態を俯瞰するメトリクスと、詳細を記すログは、別々のツールで管理されるのが当たり前でした。 しかし実際の障害対応では、それらを脳内で必死に相関させて原因を特定しなければなりません。 本書では、DifyとMCP(Model Context Protocol)を駆使し、PrometheusとElasticsearchを「1つの文脈」としてAIエージェントに統合させる手法を、実践的なコードとともに解説します。 本書で体験できる「運用自動化プラットフォーム」の力 ・自然言語によるメトリクス分析:「CPUが跳ねた時のログを探して」と呟くだけで、AIがPromQLを生成して相関分析を実行。 ・ダッシュボードの自動生成:AIとの対話で見つけた有益なクエリを、そのままGrafanaのパネルとして自動構築。 ・過去事例に基づいた復旧提案:エラーとメトリクスの変化を分析し、Notion上の過去のポストモーテムから最適な復旧コマンドを提案。 ■ 想定読者:こんな方におすすめです ・監視ツールの行き来に疲弊しているSRE:GrafanaとKibanaのタブを往復する時間を削減したい方。 ・PromQLや高度な検索クエリに苦手意識がある方:クエリの作成をAIに任せ、自分は「判断」に集中したい方。 ・LLMやAIエージェントの実践的な活用を知りたい方:単なるチャットボットを超えた、外部ツール(MCP)連携の実装を学びたい方。 ・自動復旧(Auto-Remediation)の未来に興味がある方: AIに操作権限を与える際の課題や、段階的な自動化の進め方を考えたい方。 「読み取り専用」の分析支援から、人間が承認して実行する自動復旧へ。 本書を読み終える頃には、深夜のアラート対応が、AIという頼もしい相棒との「共作」という楽しい時間へと変わり始めているはずです。 さあ、検索から自律分析、そして自動復旧へ。AIと共に、運用の新しい形を切り拓きましょう! --- 目次 はじめに 第1章 分断されるログとメトリクス ・1.1 あの「深夜3時」の続きを始めよう ・1.2 前巻で克服した3分間の救済 ・1.3 前巻では届かなかったグラフの向こう側 ・1.4 本巻でつなぐ点と線 第2章 環境構築 ・2.1 本章で作るもの ・2.2 前提条件 ・2.3 必要なツールのインストール ・2.4 kindクラスターの作成 ・2.5 まとめ ・コラム:kind vs minikube vs k3s 第3章 監視スタックの基礎知識 ・3.1 本章で作るもの ・3.2 Helmによる環境構築 ・3.3 三種の神器を触ってみる ・3.4 Prometheusの基本操作 ・3.5 Grafanaの基本操作 ・3.6 Alertmanagerの基本操作 ・コラム:アラートのベストプラクティス ・3.7 まとめ 第4章 AIエージェントに自律的にメトリクス分析をさせよう ・4.1 Difyをkind上に構築する ・コラム:kubectlを簡単にするツール ・4.2 監視基盤のMCPサーバーを構築する ・4.3 DifyとMCPサーバーを接続する ・4.4 AIエージェントを作成する ・4.5 実際に使ってみる ・4.6 まとめ ・コラム:AIは本当にPromQLを書けるのか? 第5章 Elasticsearchとの統合検索 ・5.1 ElasticsearchとKibanaをkind上に構築する ・5.2 サンプルログデータの投入 ・5.3 ElasticsearchのMCPサーバーを構築する ・コラム:APIキーの作成もマニフェスト化してしまおう ・5.4 DifyでElasticsearchのMCPサーバーに接続する ・5.5 統合検索エージェントの作成 ・5.6 ログとメトリクスの統合検索をさせてみよう ・コラム:Slackにもレポートを通知しよう ・5.7 まとめ ・コラム:ログ連携もElastic Stackにお任せあれ 第6章 AIエージェントは自動復旧の夢を見るか ・6.1 自動復旧の理想と現実 ・6.2 結局は自動運転と同じ ・6.3 技術的に実現するなら ・6.4 夢の続きは私たちの手の中に あとがき



