MLモデルの説明可能性(XAI)――SHAP・LIME・Attention可視化の実践

モデルの説明可能性(XAI)は、もはや「あると良い」レベルの機能ではなく、金融や医療では規制上、その他業種でも信頼性担保のために必須の要素になっています。SHAPは理論的に一貫した特徴量重要度を提供し、LIMEは軽量な局所説明を得られ、LLMではChain-of-Thoughtや出典引用が主要なアプローチです。ただし、説明可能性の究極の目的は「人間が納得できる形での根拠提示」であり、数字を並べて満足していては実務価値は生まれません。受け手の立場に立った可視化こそが真のXAIです。

XAI(説明可能なAI)とは

XAI(Explainable AI)とは、AIモデルの判断理由を人間が理解できる形で提示する技術・手法の総称です。近年のAIモデル、特にディープラーニングや勾配ブースティングは、高精度を実現する代わりに「ブラックボックス化」が進み、「なぜその予測が出たのか」を説明するのが難しくなっています。与信判断で否決された顧客への説明、医療診断AIの所見の根拠、不良品検知の判定理由――どれも、説明なしでは業務に組み込めません。

EUのAI Actや日本の各種ガイドラインでも、説明可能性は重要な要素として位置付けられています。リスクの高いAIシステムでは、予測結果の根拠を開示する義務が課される場合があり、コンプライアンス上も無視できません。XAIは大きく2軸で分類でき、「モデル固有 vs モデル非依存」と「大域的 vs 局所的」の組み合わせで手法が整理されます。

【XAIのアプローチ分類】

              | 大域的 (Global)          | 局所的 (Local)
--------------+--------------------------+--------------------------
 モデル固有   | 決定木の可視化           | Attention 可視化
 (Intrinsic)  | 線形モデル係数           | 勾配ベースの saliency map
--------------+--------------------------+--------------------------
 モデル非依存 | Permutation Importance   | LIME
 (Post-hoc)   | SHAP summary             | SHAP individual
              | Partial Dependence Plot  | Counterfactual Explanation

MLOpsとモデルドリフト検知の運用に、説明可能性を組み合わせることで、トラブル発生時の原因分析が格段に楽になります。

SHAP

SHAP(SHapley Additive exPlanations)は、協力ゲーム理論のシャプレー値を機械学習に応用した手法です。「各特徴量がモデル予測にどれだけ貢献したか」を、理論的に一貫した方法で算出します。主要な性質として、「効率性(全貢献量の合計が予測値とベースラインの差に一致)」「対称性」「ダミー(貢献ゼロの特徴量は重要度ゼロ)」「加法性」が保証されており、他の手法より数学的基盤が強固です。

実用上は、TreeSHAPが勾配ブースティング(XGBoost、LightGBM、CatBoost等)向けの高速実装として広く使われています。ディープラーニング向けにはDeepSHAPやGradientExplainerがあり、画像モデルではピクセル単位のヒートマップを生成できます。Pythonの`shap`ライブラリを使った基本的な使い方を見てみましょう。

import shap
import xgboost as xgb
import pandas as pd
from sklearn.model_selection import train_test_split

# データ準備と学習
df = pd.read_csv("credit_risk.csv")
X = df.drop("default", axis=1)
y = df["default"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = xgb.XGBClassifier(n_estimators=200, max_depth=6)
model.fit(X_train, y_train)

# SHAP 値の計算
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# 大域的な特徴量重要度
shap.summary_plot(shap_values, X_test, show=False)
import matplotlib.pyplot as plt
plt.savefig("shap_summary.png", bbox_inches="tight")

# 個別予測の説明（force plot）
shap.force_plot(
    explainer.expected_value,
    shap_values[0, :],
    X_test.iloc[0, :],
    matplotlib=True,
)
plt.savefig("shap_force_sample0.png", bbox_inches="tight")

`summary_plot`は特徴量全体の重要度ランキングを提示し、`force_plot`は個別予測でどの特徴量がポジティブ・ネガティブに働いたかを可視化します。与信モデルの顧客説明なら、force plotが最も直感的です。

LIME

LIME(Local Interpretable Model-agnostic Explanations)は、特定の予測の周辺でサンプリングを行い、単純な線形モデルで近似することで説明を生成する手法です。SHAPに比べて軽量で高速ですが、サンプリングのランダム性により結果が実行ごとに微妙に変動する点に注意が必要です。画像、テーブル、テキストのすべてに対応しており、汎用性が強みです。

SHAPとLIMEのどちらを選ぶかは、ユースケース次第です。研究発表や監査目的では理論的に一貫したSHAP、リアルタイムUIで大量の説明を返す必要がある場合はLIMEが現実的です。以下は両者の実務的な違いをまとめた表です。

項目	SHAP	LIME
理論的基盤	ゲーム理論	局所線形近似
一貫性	高い（公理満たす）	低い（実行で変動）
計算コスト	中〜高	低
大域的説明	可能	不可（局所のみ）
対応モデル	木系は高速・DLも可	任意のブラックボックス
実装ライブラリ	shap	lime
適した場面	規制対応・監査	UI即時応答・軽量システム

実運用では、SHAPをバッチで事前計算しておき、リアルタイム応答には事前計算結果を返すハイブリッド設計が増えています。

LLMの説明可能性

LLMの説明可能性は、従来のMLとは大きく性質が異なります。数千億パラメータのモデル内部で何が起きているかを完全に説明するのは技術的に困難で、現在の実務では「外から見た説明」を整えるアプローチが主流です。代表的な手法はChain-of-Thought(思考の連鎖)、出典引用、Attention可視化、Mechanistic Interpretabilityの4つです。

Chain-of-Thoughtは、プロンプトで「段階的に考えて答えてください」と指示することで、推論過程を明示させる手法です。ユーザーに対して根拠を示す効果があり、同時にモデル自身の精度も向上する副作用があります。出典引用はRAGと組み合わせて「この回答は◯◯ドキュメントの△△ページに基づく」と明示する方式で、ビジネスユーザーへの納得感が最も高いアプローチです。

手法	適用タイプ	信頼性	実装難易度	代表ユースケース
Chain-of-Thought	推論タスク全般	中	低	意思決定支援・教育用
出典引用（RAG）	質問応答	高	中	社内ナレッジ検索
Attention可視化	研究・デバッグ	中	高	モデル挙動の調査
Mechanistic Interpretability	研究目的	低（発展途上）	非常に高	アライメント研究
Self-Consistency	複数推論の集約	中〜高	中	正答率向上

実務では、RAG + 出典引用 + Chain-of-Thoughtの組み合わせが最も費用対効果が高く、監査対応にもある程度耐えます。生成AIガバナンスの観点からも、説明可能性は必須要素として位置付けられています。

実務への組み込み方

XAIを実務に組み込むには、「説明を作って終わり」ではなく、「説明をどう利用者に届けるか」まで設計する必要があります。与信モデルでは、判断レポートに特徴量重要度トップ5を自動添付する。医療画像AIでは、予測と合わせてヒートマップをダッシュボードに表示する。LLMチャットボットでは、回答の下に出典リンクを常時表示する。いずれも「モデルの中」ではなく「利用者の目線」で設計することが肝心です。

import shap
import pandas as pd
from jinja2 import Template

def generate_explanation_report(model, X_sample, output_path):
    explainer = shap.TreeExplainer(model)
    shap_vals = explainer.shap_values(X_sample)
    base = explainer.expected_value

    # 上位5特徴量
    contrib = pd.Series(shap_vals[0], index=X_sample.columns).sort_values(key=abs, ascending=False)
    top5 = contrib.head(5)

    template = Template("""
# 予測説明レポート
- 予測値: {{ prediction }}
- ベースライン: {{ base }}

## 影響度トップ5
{% for name, value in top5.items() %}- {{ name }}: {{ "%.3f" % value }}
{% endfor %}
    """)
    report = template.render(
        prediction=base + shap_vals[0].sum(), base=base, top5=top5
    )
    with open(output_path, "w", encoding="utf-8") as f:
        f.write(report)

上記のような定型レポートを自動生成しておけば、運用者や監査対応で再現性のある説明を提供できます。モデルレジストリと統合して、バージョンごとの説明レポートを蓄積するのがおすすめです。

まとめ

XAIは単なる技術要素ではなく、AIシステムを実務に定着させるための必須機能です。SHAPとLIMEはテーブルデータの説明における定番、LLMではRAGの出典引用が最も実務価値の高いアプローチです。ただし、どんな手法を使っても、最終的に受け手が納得できる形で伝えなければ意味がありません。説明の設計は、モデル技術ではなく「伝える技術」として捉え直すことをおすすめします。

よくある質問

Q. XAIとは?

A. Explainable AI(説明可能なAI)の略で、AIモデルがなぜその予測を行ったかを人間が理解できる形で提示する技術・手法の総称です。規制対応、ユーザーの信頼、デバッグのすべてで重要な役割を果たします。

Q. SHAPとLIMEのどちらを使うべきですか?

A. 理論的な一貫性と大域的な説明が必要ならSHAP、計算速度を重視し局所的な説明で十分ならLIMEが適しています。一般的にはSHAPが推奨されますが、ユースケース次第で両者を併用する設計も有力です。

Q. LLMの判断根拠をどう説明しますか?

A. Chain-of-Thoughtプロンプトで推論過程を出力させる、RAGの場合は出典を明示する、Attention重みを可視化する、といった手法があります。実務では出典引用が最も効果的です。