異常検知システムの設計――統計手法・ML・LLMの使い分け

異常検知のアプローチは統計的手法、機械学習ベース、LLMベースの3つに大別できます。シンプルな数値データならZ-scoreで十分、高次元データや非線形な関係性にはIsolation ForestやAutoencoder、テキストログの異常検知にはLLMベースが有効です。さらに本番運用では、偽陽性を抑える設計とHuman-in-the-Loopの導入が継続的な成功の鍵になります。

異常検知とは

異常検知は、通常とは異なるパターンを自動的に識別するタスクの総称です。クレジットカードの不正取引、工場設備の故障予兆、ネットワークへの侵入、システムログの異常動作など、応用範囲は幅広いです。学習のアプローチによって「教師あり(ラベル付き異常データで学習)」「教師なし(正常データのみで学習)」「半教師あり(大量の正常データと少数の異常データで学習)」の3つに分かれます。

実務で最も使われるのは教師なしアプローチです。異常事例はもともと希少で、ラベル付きデータを大量に用意するのが困難だからです。Isolation ForestやOne-Class SVM、Autoencoderなどが代表的な手法です。

【異常検知アプローチの分類】

[異常検知全体]
   |
   +-- 教師あり(Supervised)
   |     |-- ラベル付き異常データあり
   |     +-- XGBoost, ニューラルネット
   |
   +-- 教師なし(Unsupervised)
   |     |-- 正常データのみ
   |     |-- 統計的手法(Z-score, IQR)
   |     +-- ML手法(Isolation Forest, Autoencoder)
   |
   +-- 半教師あり(Semi-Supervised)
   |     |-- 正常+少数の異常
   |     +-- PU Learning
   |
   +-- LLMベース
         |-- テキストログ異常
         +-- 時系列ログの挙動異常

※ 実務の主流は教師なし。異常ラベルは希少なため。

統計的手法による異常検知

統計的手法は、最もシンプルで解釈しやすい異常検知アプローチです。Z-score(標準偏差からのズレで判定)、IQR(四分位範囲から外れる値を検知)、Grubbs検定(正規分布仮定の外れ値検定)などがよく使われます。実装が容易で結果の解釈も簡単なため、データの性質を把握する初期段階や、ベースラインとして優先的に検討すべき手法です。

以下は、Z-scoreベースの異常検知の最小コード例です。複雑な手法に進む前に、まずこのレベルで十分かどうかを確認する習慣をつけると無駄な複雑化を避けられます。

import numpy as np
import pandas as pd

def detect_anomalies_zscore(data, threshold=3.0):
    """Z-scoreによる異常検知"""
    mean = np.mean(data)
    std = np.std(data)
    z_scores = (data - mean) / std
    anomalies = np.abs(z_scores) > threshold
    return anomalies

def detect_anomalies_iqr(data, multiplier=1.5):
    """IQRによる異常検知"""
    q1 = np.percentile(data, 25)
    q3 = np.percentile(data, 75)
    iqr = q3 - q1
    lower = q1 - multiplier * iqr
    upper = q3 + multiplier * iqr
    return (data < lower) | (data > upper)

# 使用例
sensor_data = np.array([10, 12, 11, 13, 9, 100, 11, 12, 10, 11])
print("Z-score異常:", detect_anomalies_zscore(sensor_data))
print("IQR異常:", detect_anomalies_iqr(sensor_data))

機械学習ベースの異常検知

多次元データや非線形な関係性を扱う場合は、機械学習ベースの手法が必要です。Isolation Forestは「異常は分離しやすい」という直感を利用したアルゴリズムで、教師なし学習の定番です。One-Class SVMは正常データの領域を学習し、それ以外を異常と判定します。Autoencoderは復元誤差が大きいデータを異常とみなす手法で、画像やセンサー系列などの高次元データに強みを発揮します。

手法	アプローチ	データ要件	精度	計算コスト	適した場面
Z-score	統計的外れ値	少量でOK	低〜中	低	単変量・正規分布
IQR	四分位範囲	少量でOK	低〜中	低	ロバスト・頑健
Isolation Forest	分離難度	中量	中〜高	中	多次元・非線形
One-Class SVM	境界学習	中量	中	中〜高	高次元・小規模
Autoencoder	復元誤差	大量	高	高	画像・センサー系列
LSTM-AE	時系列復元誤差	大量	高	高	時系列データ
LLMベース	意味的異常	少量	高	高	テキストログ

LLMベースの異常検知

LLMベースの異常検知は、特にテキストログや構造化されていないデータでの異常検知に強みを発揮します。サーバーログ、アプリケーションログ、監査ログなど、従来は正規表現やルールベースで対応していた領域で、LLMが文脈を理解した上で異常を判定できます。従来手法では捉えにくかった「コード例外ではないが挙動が不自然」なケースも検知できる点が新しい価値です。

ユースケース	データタイプ	推奨手法	精度期待値
クレジットカード不正検知	取引データ	教師あり+Isolation Forest	高
サーバー負荷異常	時系列センサー	LSTM-Autoencoder	中〜高
製造品質異常	センサー多変量	Autoencoder	高
アプリログ異常	テキストログ	LLMベース	中〜高
金融市場異常	時系列+イベント	統計+ML複合	中
ネットワーク侵入検知	パケット	Isolation Forest+教師あり	高

ユースケースによって最適手法が異なるため、万能の1手法を探すよりも、問題に応じた使い分けが実務的です。予測分析と併せて、データの性質に合った選定を心がけてください。

本番運用の設計

異常検知システムの本番運用で最も頭を悩ませるのが、偽陽性(誤検知)です。高感度の設定にすると正常な値も異常と判定してしまい、アラート疲れが発生します。逆に感度を下げると本当の異常を見逃します。この調整は技術だけでなく、現場との対話の中で継続的にチューニングすべきものです。

以下は、Isolation Forestを使った異常検知パイプラインの例です。本番では前処理、バッチ処理、アラート通知、フィードバックループなどを加えて運用します。

import pandas as pd
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler

class AnomalyDetector:
    def __init__(self, contamination=0.01):
        self.scaler = StandardScaler()
        self.model = IsolationForest(
            contamination=contamination,
            n_estimators=200,
            random_state=42,
        )

    def fit(self, X_train):
        X_scaled = self.scaler.fit_transform(X_train)
        self.model.fit(X_scaled)

    def detect(self, X):
        X_scaled = self.scaler.transform(X)
        scores = self.model.decision_function(X_scaled)
        predictions = self.model.predict(X_scaled)
        return predictions, scores

# 使用例
detector = AnomalyDetector(contamination=0.02)
train_df = pd.read_csv("normal_operations.csv")
detector.fit(train_df[["cpu", "mem", "disk_io"]])

current = pd.read_csv("current_snapshot.csv")
preds, scores = detector.detect(current[["cpu", "mem", "disk_io"]])
print(preds[:10])

Human-in-the-Loopでは、検知結果を人間がレビューし、フィードバックを蓄積することでモデルを継続的に改善します。アラートの誤検知率を下げるにはモデルドリフト検知やMLOpsの仕組みと連携するのが有効です。

まとめ

異常検知システムの成否は、問題に合った手法選定と、偽陽性を抑える運用設計の2点にかかっています。シンプルな統計的手法から始めて、必要に応じて機械学習やLLMベースに進化させるアプローチが安全です。本番運用ではHuman-in-the-Loopによる継続改善サイクルを組み込むことで、現場の信頼を勝ち取りながらシステムを育てていけます。データサイエンスワークフローや業界別AI活用事例の記事もご参照ください。

よくある質問

Q. 異常検知に教師データは必要ですか。

A. 必ずしも必要ありません。Isolation ForestやAutoencoderなどの教師なし手法は、正常データのみで学習可能です。ただし教師ありの方が精度は高くなるため、少量の異常ラベルがあれば半教師ありアプローチが有効です。

Q. 偽陽性(誤検知)をどう減らしますか。

A. 閾値の調整、複数手法のアンサンブル、ルールベースとMLの組み合わせ、Human-in-the-Loopでのフィードバックループが効果的です。アラートをトリアージできる仕組みを併設し、人間が最終判断する運用を前提に設計するのが現実的です。

Q. 異常検知の最適な手法は何ですか。

A. データの特性とユースケースによります。数値データならIsolation Forest、時系列ならLSTM-Autoencoder、テキストログならLLMベースが適しています。いずれもまずZ-scoreなどシンプルな手法でベースラインを取ってから比較するのが実務的です。