MLモデルのA/Bテストは、オフライン評価では見えない「本番環境での真の優劣」を明らかにする不可欠な手法だ。トラフィック分割・統計的有意性の確保・カナリアリリースとの組み合わせを正しく設計することで、新モデルを安全に本番投入できる。

なぜモデルのA/Bテストが必要か

「テストデータでの精度が上がったから本番に投入する」――この判断が裏目に出ることがMLの現場では少なくない。オフライン評価 (ホールドアウトセットでの評価) と本番環境には構造的な乖離がある。分布シフト (本番データが学習時と異なる分布を持つ)、フィードバックループ (モデルの予測がユーザー行動を変え、次の学習データを変質させる)、過去のラベルバイアス (遡及的にラベリングされたデータは本番の真の分布と異なる) などが主な原因だ。

【A/Bテストのトラフィック分割概念図】

  本番リクエスト (100%)
         |
  [トラフィックスプリッター]
  ユーザーIDハッシュ / ランダム / 地域
         |
  +------+------+
  |             |
 90%           10%
  |             |
[モデルA]    [モデルB]
現行モデル    新モデル
  |             |
 予測結果      予測結果
  |             |
  +------+------+
         |
  [メトリクス収集]
  精度・ビジネスKPI・レイテンシ
         |
  [統計的有意差検定]
  有意差あり → モデルB採用 / なし → 延長またはロールバック

A/Bテストの設計パターン

トラフィックの分割方法はシステムの要件によって選択が変わる。3つのパターンを比較する。

パターン 一貫性 実装難易度 適したケース
完全ランダム分割 低 (同一ユーザーが両群に入りうる) ユーザー体験への影響が小さいバックエンドモデル (推薦スコア、異常検知等)
ユーザーIDハッシュ分割 高 (同一ユーザーは常に同じ群) ユーザー体験に影響するモデル (検索ランキング、レコメンド等)
地域分割 最高 (地域ごとに完全分離) 地域間の相互影響を避けたい場合 (価格モデル、配送最適化等)

最も一般的で推奨される方法はユーザーIDハッシュ分割だ。ユーザーIDをハッシュ化して実験群を決定することで、同一ユーザーが常に同じモデルで予測を受け取ることを保証できる。ユーザーが「今回はAの結果、次はBの結果」と異なる体験をすることを防げる。

カナリアリリースとシャドーデプロイ

A/Bテストと合わせてよく使われる2つのデプロイ戦略の特性を整理する。

戦略 リスク ロールバック速度 コスト ユーザー影響
A/Bテスト 中 (一部ユーザーに新モデルを適用) 中 (分割比率変更) あり (実際にサービス影響)
カナリアリリース 低〜中 (小%から段階的に拡大) 速 (分割比率をゼロに) 最小限 (最初は小%のみ)
シャドーデプロイ 最低 (ユーザーへの影響なし) 不要 (本番に影響なし) 高 (二重推論コスト) なし (結果を使わない)
# Istio/Envoyでのトラフィック分割設定 (YAML)
# 新モデルに10%のトラフィックを振り分けるカナリアリリース
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: ml-model-service
spec:
  hosts:
  - ml-model-service
  http:
  - match:
    - headers:
        x-experiment-group:
          exact: "canary"
    route:
    - destination:
        host: ml-model-service
        subset: v2  # 新モデル
  - route:
    - destination:
        host: ml-model-service
        subset: v1  # 現行モデル
      weight: 90
    - destination:
        host: ml-model-service
        subset: v2  # 新モデル
      weight: 10

統計的有意性の判断

A/Bテストで「新モデルの方が良かった」と判断するには、差異が統計的に有意である必要がある。単に平均値が高いだけでは不十分で、その差がランダムな変動の範囲内でないことを確認する必要がある。

from scipy import stats
import numpy as np

def ab_test_significance(
    control_conversions: int, control_total: int,
    treatment_conversions: int, treatment_total: int,
    alpha: float = 0.05
) -> dict:
    """A/Bテストの統計的有意差を検定する"""
    
    control_rate = control_conversions / control_total
    treatment_rate = treatment_conversions / treatment_total
    
    # 二項分布の比率検定 (z検定)
    pooled_rate = (control_conversions + treatment_conversions) / (control_total + treatment_total)
    se = np.sqrt(pooled_rate * (1 - pooled_rate) * (1/control_total + 1/treatment_total))
    z_score = (treatment_rate - control_rate) / se
    p_value = 2 * (1 - stats.norm.cdf(abs(z_score)))
    
    # 最小検出効果量のサンプルサイズ計算
    from statsmodels.stats.power import NormalIndPower
    analysis = NormalIndPower()
    required_n = analysis.solve_power(
        effect_size=0.05, alpha=alpha, power=0.80, alternative="two-sided"
    )
    
    return {
        "control_rate": round(control_rate, 4),
        "treatment_rate": round(treatment_rate, 4),
        "lift": round((treatment_rate - control_rate) / control_rate * 100, 2),
        "p_value": round(p_value, 4),
        "significant": p_value < alpha,
        "recommended_sample_per_group": int(required_n)
    }

# 例: CVRのA/Bテスト
result = ab_test_significance(
    control_conversions=1200, control_total=10000,
    treatment_conversions=1350, treatment_total=10000
)
print(result)

LLMモデルのA/Bテスト

LLMアプリケーションのA/Bテストは、従来のMLモデルと異なる課題を持つ。「精度」という単一指標で比較できる従来MLと違い、LLMの評価指標は多面的だ。

  • ビジネスメトリクス: タスク完了率・セッション離脱率・ユーザー満足度スコア (最終的に最も重要)
  • 品質メトリクス: 回答の正確性・関連性・Faithfulness (RAGの場合)
  • 効率メトリクス: レイテンシ・トークン消費量・コスト

LLMの品質評価では「人間評価」と「LLM-as-a-Judge (LLMが別のLLMの回答を評価する手法)」を併用するアプローチが現実的だ。大量サンプルはLLM-as-a-Judgeで自動評価し、低スコアのサンプルを人間がレビューするハイブリッド体制が推奨される。

まとめ

  • オフライン評価の改善が本番改善に直結するとは限らない。A/Bテストで本番での真の優劣を確認する
  • ユーザー体験に影響するモデルにはユーザーIDハッシュ分割で一貫性を確保する
  • カナリアリリースで小さく試し、統計的有意差を確認してから全量切り替える
  • LLMのA/Bテストはビジネスメトリクス・品質・効率の多面評価が必要

よくある質問

Q. モデルのA/Bテストとは?

本番環境で新旧モデルにトラフィックを分割し、実データでパフォーマンスを比較する手法です。オフライン評価だけでは見えない差異を検出できます。

Q. A/Bテストの最低限必要なサンプルサイズは?

検出したい効果量と有意水準によりますが、一般的には各群数千〜数万サンプルが必要です。事前にサンプルサイズ計算を行い、テスト期間を見積もります。

Q. カナリアリリースとA/Bテストの違いは?

カナリアリリースは段階的にトラフィックを移行してリスクを低減する手法、A/Bテストは統計的にモデルの優劣を判断する手法です。両者を組み合わせて使うのが一般的です。