Mixture of Experts（MoE）アーキテクチャ解説――効率的な大規模モデルの設計思想

Mixture of Experts（MoE）は、モデル全体のパラメータ数を維持しながら推論時の計算コストを大幅に削減するアーキテクチャであり、GPT-4やMixtralなど最新LLMの設計基盤となっています。従来のDense Transformerが「全パラメータを毎回使う」のに対し、MoEは入力に応じて一部のExpert（専門家ネットワーク）のみを活性化する「選択と集中」のアプローチを取ります。本記事では、MoEのゲーティングメカニズム、Dense Transformerとの性能比較、実装上の課題と最新研究動向、そしてビジネスへの示唆までを解説します。

MoEとは何か――「全員参加」から「専門家チーム」へ

MoE（Mixture of Experts）の基本概念は驚くほどシンプルです。従来のDense Transformerでは、各レイヤーのFFN（Feed-Forward Network）が入力トークンすべてに対して全パラメータで計算を行います。これは「全社員が全案件に参加する」ような運営です。

MoEでは、FFN層を複数のExpert（専門家）に分割し、ゲーティングネットワーク（Router）が入力トークンに応じて最適なExpertを選択します。通常Top-K（K=1〜2）個のExpertだけが活性化されるため、パラメータ数は大きくても実際に使われる計算量は限定的です。これは「専門チームに案件を振り分ける」組織運営に近い発想です。

MoEの歴史は1991年のJacobs et al.に遡りますが、LLMへの本格適用はShazeer et al. (2017)の「Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer」が転機となりました。その後、GShard (Lepikhin et al., 2020)、Switch Transformer (Fedus et al., 2022)を経て、現在のMixtralやDeepSeek-V2に至ります。

MoEの出力は以下の数式で表現されます。

y = Σ_i=1^N G(x)_i · E_i(x)

ここで、E_i(x)はi番目のExpertの出力、G(x)_iはゲーティングネットワークがi番目のExpertに割り当てた重みです。Top-K選択の場合、選択されなかったExpertの重みは0となるため、実際にはK個のExpertの出力のみが計算されます。

【MoEレイヤーの構造】

  Input Token
      |
      v
  [Gating Network (Router)]
      |
      v  Top-K 選択（通常 K=1 or 2）
  +----------+----------+----------+----------+
  | Expert 1 | Expert 2 | Expert 3 | Expert N |
  |(inactive)| (active) |(inactive)| (active) |
  +----------+----------+----------+----------+
                  |                      |
                  v                      v
              重み付き合成（Weighted Sum）
                  |
                  v
             Output Token

  ※ N個のExpert中、K個のみが計算を実行
  ※ パラメータ数はN倍だが、計算量はK/N倍で済む

MoEの核心――ゲーティングメカニズム

MoEアーキテクチャの性能はゲーティング（ルーティング）メカニズムの設計に大きく依存します。最も基本的な形式では、入力トークンxに対してSoftmax関数を適用し、各Expertへの重みを計算します。

G(x) = Softmax(TopK(x · W_g))

ここでW_gはゲーティングネットワークの学習可能なパラメータ、TopK関数は上位K個の値のみを保持し、残りを-∞に設定する操作です。

MoEの実装で最も厄介な問題がロードバランシングです。学習中に特定のExpertに入力が集中し、他のExpertが全く使われなくなる「Expert崩壊」が発生します。この対策として、Auxiliary Balancing Lossが導入されました。各Expertへの入力トークン配分が均等になるよう、補助的な損失項を追加する手法です。

さらに、Expert Choice Routing (Zhou et al., 2022)では発想を逆転させ、「トークンがExpertを選ぶ」のではなく「ExpertがトークンをTop-K選択する」アプローチを提案し、より安定したロードバランシングを実現しました。

以下は、PyTorchでの簡易的なゲーティングネットワークの実装例です。

# PyTorch での簡易 MoE ゲーティング実装
import torch
import torch.nn as nn
import torch.nn.functional as F

class TopKGating(nn.Module):
    def __init__(self, input_dim, num_experts, top_k=2):
        super().__init__()
        self.gate = nn.Linear(input_dim, num_experts, bias=False)
        self.top_k = top_k

    def forward(self, x):
        # x: (batch_size, seq_len, input_dim)
        logits = self.gate(x)  # (batch_size, seq_len, num_experts)

        # Top-K 選択
        top_k_logits, top_k_indices = logits.topk(self.top_k, dim=-1)
        top_k_gates = F.softmax(top_k_logits, dim=-1)

        # 選択されなかった Expert の重みをゼロに
        zeros = torch.zeros_like(logits)
        gates = zeros.scatter(-1, top_k_indices, top_k_gates)

        return gates, top_k_indices

Dense Transformer vs. MoE――パフォーマンスとコストの比較

MoEの最大の利点は、同一の計算予算（FLOPs）でDense Transformerを大幅に上回る性能を達成できることです。たとえばMixtral 8x7Bは総パラメータ数46.7Bですが、推論時にアクティブになるのは12.9B。つまり、70Bクラスのモデル容量を持ちながら、13Bクラスの推論コストで動作します。

項目	Dense Transformer	MoE Transformer
総パラメータ数	全パラメータ = アクティブパラメータ	Expert数に比例して大きい
推論時アクティブパラメータ	100%	10〜25%（Top-K/N）
推論FLOPs	パラメータ数に比例	アクティブパラメータに比例
学習FLOPs	推論FLOPsと同等	ロードバランシングのオーバーヘッドあり
メモリ使用量	パラメータ数に比例	全Expert分のメモリが必要（大きい）
実装複雑度	低い	高い（ルーティング、通信設計）
スケーラビリティ	計算コストが線形増加	Expert追加でコスト一定のまま容量拡大可

モデル名	パラメータ（総/アクティブ）	Expert数	Top-K	公開年	主な特徴
Switch Transformer	1.6T / 非公開	128	1	2022	Top-1ルーティングの先駆け
Mixtral 8x7B	46.7B / 12.9B	8	2	2023	OSSで高性能、商用利用可
Mixtral 8x22B	141B / 39B	8	2	2024	Mixtralの大型版
DBRX	132B / 36B	16	4	2024	Databricks開発、Fine-grained
DeepSeek-V2	236B / 21B	160	6	2024	Fine-grained MoE + MLA
GPT-4（推定）	1.8T / 推定220B	16（推定）	2（推定）	2023	非公開だがMoEと広く推定

MoEの実装上の課題と解決策

Expert間の通信コスト

分散学習時、各トークンが異なるGPU上のExpertに送られるため、All-to-All通信が発生します。Expert Parallelism（Expertを異なるGPUに配置する並列化戦略）を適切に設計し、通信と計算のオーバーラップを最大化することが性能のカギです。

メモリ効率

MoEは推論時にアクティブなパラメータが少なくても、全Expertの重みをメモリに保持する必要があります。Mixtral 8x7Bの46.7Bパラメータは、半精度（FP16）でも約93GBのGPUメモリを要求します。Expert Offloading（使われていないExpertをCPUメモリに退避させる手法）やCapacityファクターの調整で対処できますが、推論レイテンシとのトレードオフが発生します。

学習の不安定性

Expert崩壊（一部のExpertに入力が集中し、残りが学習されなくなる現象）は、MoE学習の最大の課題です。Router Z-Loss（ゲーティングlogitsの大きさにペナルティを課す）、Expert Dropout（ランダムにExpertを無効化する）、Auxiliary Balancing Lossなどの手法が組み合わせて使われます。

推論の最適化

MoEモデルの推論最適化では、バッチ内の異なるトークンが異なるExpertを呼び出すため、バッチング効率が課題になります。vLLMやTensorRT-LLMなどの推論フレームワークがMoE専用の最適化（Expert並列処理、動的バッチング）を提供しています。量子化（GPTQ、AWQ）との組み合わせでメモリフットプリントを大幅に削減できます。

以下はHugging Face TransformersでMixtralを推論する基本コードです。

# Hugging Face Transformers での Mixtral 推論例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "mistralai/Mixtral-8x7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",      # 複数GPUに自動分散
    load_in_4bit=True        # 4bit量子化でメモリ節約
)

prompt = "[INST] MoEアーキテクチャの利点を3つ説明してください。 [/INST]"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

MoEの最新研究動向

1. Fine-grained MoE
DeepSeek-V2 (Dai et al., 2024)は160個のFine-grained Expertを採用し、各Expertのパラメータ数を小さくしつつExpert数を大幅に増やすアプローチを取りました。236Bパラメータに対してアクティブは21Bと、極めて高い計算効率を実現しています。

2. Vision MoE
MoEはテキストに限らず、Vision Transformer（ViT）やマルチモーダルモデルにも適用されています。V-MoE (Riquelme et al., 2021)は画像認識タスクにMoEを導入し、計算コストを一定に保ちながらモデル容量を拡大する手法を示しました。

3. MoE + 蒸留
MoEモデルの知識を、よりコンパクトなDenseモデルに蒸留する研究が進んでいます。推論時にMoEの大きなメモリフットプリントが障壁となるエッジデプロイメントなどの用途で、MoE→Dense蒸留は実用的な解決策です。

4. Soft MoE
従来の離散的なTop-K選択ではなく、連続的な重み付けで全Expertの出力を統合するSoft MoE (Puigcerver et al., 2023)も提案されています。ルーティングの不安定性を根本的に解消するアプローチとして注目されていますが、計算効率とのトレードオフが議論されています。

ビジネスへの示唆――MoEは「使う側」に何をもたらすか

MoEアーキテクチャの普及は、LLMのAPI利用者や自社運用者にも直接的なインパクトをもたらします。

推論コストの低減：MoEベースのモデルはDenseモデルと同等の性能をより少ない計算量で達成するため、API提供者のコスト構造が改善し、利用者へのAPI料金引き下げにつながる可能性があります。GPT-4oの料金がGPT-4から大幅に引き下げられた背景にも、MoEアーキテクチャの採用があると推測されています。

オンプレミス展開への影響：MoEモデルは推論FLOPsが小さい一方、全Expert分のメモリが必要です。「計算は軽いがメモリは重い」という特性は、GPU選定（VRAM重視）やサーバー構成に影響します。量子化技術との組み合わせが実用化のカギを握ります。

モデル選定への示唆：同じベンチマークスコアでもDenseモデルとMoEモデルでは特性が異なります。バッチ推論のスループット重視ならDenseモデル、低レイテンシ重視ならMoEモデルが有利になる場面があり、ユースケースに応じた選定が重要です。

まとめ――MoEはLLMのスケーリングを再定義する

MoEは、入力に応じて一部のExpertのみを活性化し、パラメータ数と計算量を分離するアーキテクチャ
ゲーティングネットワークがExpertの選択を担い、ロードバランシングが学習の安定性を左右する
Dense Transformerと比較して、同一計算予算で大幅に高い性能を達成できる
メモリ効率と通信コストが主な実装上の課題であり、量子化やExpert Offloadingで対処
Fine-grained MoEやVision MoEなど、応用範囲は急速に拡大している

MoEの理解は、今後のモデル選定やコスト最適化の判断力を高めます。LLMのアーキテクチャ選定やAI基盤の設計に関するご相談は、Empower STKまでお気軽にどうぞ。

よくある質問（FAQ）

Q. MoE（Mixture of Experts）とは何ですか？

MoEは、複数のExpert（専門家ネットワーク）を持ち、入力に応じてゲーティングネットワークが最適なExpertを選択して処理するアーキテクチャです。全パラメータを毎回使うDense Transformerと異なり、推論時のアクティブパラメータを大幅に削減でき、計算効率が高い特徴があります。GPT-4やMixtralなど最新の大規模モデルの基盤技術です。

Q. MoEモデルとDenseモデルはどちらを選ぶべきですか？

推論コスト（FLOPs）を重視する場合はMoEが有利です。ただし、MoEは全Expertのパラメータをメモリに保持する必要があるため、メモリが制約となる環境ではDenseモデルが適しています。バッチ推論のスループット重視ならDense、低レイテンシ重視ならMoEという使い分けも考えられます。

Q. MoEのExpert数はいくつが最適ですか？

一般的に8〜64個が多いですが、DeepSeek-V2では160個以上のFine-grained Expertを採用しています。Expert数を増やすとモデルの表現力は向上しますが、ロードバランシングの難易度やメモリ要件も増加するため、計算環境とタスクに応じた選定が必要です。