LLMの蒸留(Distillation)――大規模モデルの知識を小規模モデルに移す方法

蒸留(Distillation)は、大規模な教師モデルの知識を小規模な生徒モデルに移す技術であり、LLM時代においては推論コストの削減とエッジ展開を実現する中核技術です。GPT-4クラスの「巨人」から7Bクラスの「小人」へ知識を継承することで、10〜100倍のコスト効率を達成できます。本記事では、知識蒸留の基本理論、LLM特有の手法、実装コード、法的・倫理的論点、量子化・プルーニングとの使い分けまで網羅的に解説します。

知識蒸留とは何か――「師匠の知恵を弟子に伝える」

知識蒸留（Knowledge Distillation）の基本概念は、Hinton et al. (2015)「Distilling the Knowledge in a Neural Network」で提示されました。アイデアは直感的で、教師モデル(Teacher)の出力分布を「ソフトラベル」として生徒モデル(Student)に学ばせる、というものです。ハードラベル（正解クラスのみ）より情報量が多く、特にクラス間の類似性や不確実性の情報が生徒モデルに伝わります。

蒸留ロスは次の形で定義されるのが一般的です。$L_{CE}$は通常のクロスエントロピー、$L_{KL}$はKLダイバージェンスベースのソフトラベル損失、$T$は温度(分布を滑らかにするハイパーパラメータ)、$\alpha$は両者の重み付けです。

$$L = \alpha \cdot L_{CE}(y, p_s) + (1-\alpha) \cdot T^2 \cdot L_{KL}\left(\frac{p_t}{T}, \frac{p_s}{T}\right)$$

【Distillation Pipeline】

[Teacher Model (e.g. GPT-4 class)]
         |
         v  (generate soft labels / synthetic data)
[Distillation Dataset]
         |
         v  (train with KL + CE loss)
[Student Model (e.g. 7B)]
         |
         v
[Lightweight fast inference model]

※ Student inherits Teacher's "soft" knowledge
※ 10x-100x inference cost reduction typical

LLMの文脈では、内部ロジットに直接アクセスできないケース（商用APIを教師にする場合）が多いため、古典的なHinton蒸留を純粋な形で実装することは少なく、出力テキスト自体を教師情報として使うシーケンスレベル蒸留が主流となっています。

LLM時代の蒸留手法

出力模倣型蒸留（Sequence-level KD）

教師モデルの生成テキストそのものを生徒の学習データとして使うアプローチです。Alpaca、Vicuna、WizardLMなど、多くのオープンソースLLMがこの方式で作られてきました。実装が容易で、高品質なインストラクションデータセットを作れる点が強みです。一方、教師がアクセス不可能な場合はロジット情報が得られず、効率は純粋なKDに劣ります。

特徴量蒸留（Feature-level KD）

DistilBERTやTinyBERTで使われた手法で、生徒モデルの中間層の隠れ状態やアテンションパターンを教師モデルのそれに近づける方式です。出力だけでなく「推論過程」を模倣させるため、汎化性能が向上する傾向があります。ただし、教師と生徒のアーキテクチャが近い必要があり、商用APIを教師とする場合には適用できません。

タスク特化蒸留

特定タスク（分類、要約、質問応答など）に絞って教師モデルの能力を生徒に転移する方式です。汎用性は犠牲になりますが、対象タスクに関しては教師モデルに肉薄する性能を、1/10〜1/100のモデルサイズで実現できます。DE-STKの顧客案件でも、定型タスクへの展開ではタスク特化蒸留が最もコスト対効果が高いケースが多く見られます。

自己蒸留（Self-Distillation）

教師と生徒を同じアーキテクチャの同じモデルとし、深い層の出力を浅い層に蒸留する、あるいは初期チェックポイントを後期モデルの教師とする手法です。同一モデル内での知識圧縮や正則化効果を狙います。BYOTなどの研究があり、単純な既存モデルの改善手段として使われます。

手法	教師情報	生徒の自由度	精度	実装コスト	代表例
Sequence-level KD	生成テキスト	高	中〜高	低	Alpaca, Vicuna
Feature-level KD	中間層+ロジット	低	高	中	DistilBERT, TinyBERT
タスク特化蒸留	タスク固有出力	中	タスクで最高	中	Orca, Phi系
自己蒸留	自モデル深層	低	中（改善効果）	低	BYOT

蒸留の実装と実践

実務的なLLM蒸留は、まず高品質な蒸留データセットを構築するところから始まります。汎用性を持たせるなら、多様な入力プロンプトとそれに対する教師モデルの応答ペアを数万〜数十万件単位で収集します。品質管理としては、フィルタリング(長さ・繰り返し検出)、多様性確保(クラスタリングによるサンプリング)、有害性除去が重要です。

from openai import OpenAI
import json, random

client = OpenAI()

prompts = [
    "次の契約条項を要約してください: ...",
    "以下のPythonコードのバグを指摘してください: ...",
    "財務レポートからKPIを抽出してください: ...",
]

def generate_distillation_data(prompt, n=3):
    samples = []
    for _ in range(n):
        resp = client.chat.completions.create(
            model="gpt-4o",
            messages=[{"role": "user", "content": prompt}],
            temperature=0.7,
        )
        samples.append({
            "prompt": prompt,
            "response": resp.choices[0].message.content,
        })
    return samples

with open("distill.jsonl", "w", encoding="utf-8") as f:
    for p in prompts:
        for s in generate_distillation_data(p):
            f.write(json.dumps(s, ensure_ascii=False) + "\n")

from transformers import (
    AutoModelForCausalLM, AutoTokenizer,
    TrainingArguments, Trainer, DataCollatorForLanguageModeling,
)
from datasets import load_dataset

model_name = "meta-llama/Llama-3.2-3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
student = AutoModelForCausalLM.from_pretrained(model_name)

ds = load_dataset("json", data_files="distill.jsonl", split="train")

def tokenize(ex):
    text = f"### Prompt:\n{ex['prompt']}\n### Response:\n{ex['response']}"
    return tokenizer(text, truncation=True, max_length=2048)

ds = ds.map(tokenize, remove_columns=ds.column_names)

trainer = Trainer(
    model=student,
    args=TrainingArguments(output_dir="./student", num_train_epochs=3,
                           per_device_train_batch_size=4, fp16=True),
    train_dataset=ds,
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False),
)
trainer.train()

蒸留の限界と法的・倫理的論点

性能の上限として、生徒モデルは一般的に教師モデルを超えられない（Weak-to-Strong問題）と考えられています。ただしタスク特化蒸留では、教師モデルの最良部分だけを学ぶことで、特定タスクにおいて教師を上回る効率で動作することは可能です。また、BurnsらのWeak-to-Strong Generalization研究では、生徒が教師の能力を一定程度超えるケースも報告されています。

法的・倫理的論点として、OpenAIなど商用APIの利用規約では、出力を使って「競合するモデル」を開発することを明示的に制限しているケースがあります。研究目的や社内ツール用途は許容されるケースもありますが、商用LLMとしての再配布や販売は契約違反になる可能性が高く、必ず個別に規約確認が必要です。

プロバイダー	出力の学習利用	競合モデル学習への使用	蒸留の明示的言及
OpenAI	原則可（社内）	禁止	明示的に競合モデル禁止
Anthropic	原則可（社内）	禁止	競合モデル禁止
Google Gemini	原則可（社内）	制限あり	用途により異なる
Meta Llama	可（ライセンス準拠）	可（商用制限あり）	明示的許可

蒸留 vs. 量子化 vs. プルーニング――モデル軽量化手法の比較

項目	蒸留	量子化	プルーニング
アプローチ	小モデルへ知識転移	重みのビット幅削減	不要な重み削除
精度維持	中〜高	高（4bit以上）	中
速度向上	大（小型化）	中〜大	中
メモリ削減	大	大	中
実装コスト	中〜高	低	中
組み合わせ可能性	量子化と併用可	蒸留と併用可	限定的

実務では、蒸留と量子化の組み合わせが最も強力です。教師70Bモデルを7Bに蒸留し、その7BモデルをINT4量子化することで、元の70B FP16との比較で推論コストが約1/40となり、精度は特化タスクでは教師の90%以上を維持できます。プルーニングは実装の難度と効果のバランスで前者二つに劣るため、補助的な位置付けとなります。

ビジネスへの示唆――蒸留でLLMコストを1/10にする

蒸留のTCO削減効果は具体的です。あるタスクでGPT-4 APIを月間100万リクエスト使うと仮定すると、月額約5000〜10000ドルのコストがかかります。同じタスクを蒸留した7Bモデル+量子化で自社GPU運用に切り替えれば、月額1000ドル未満に収まるケースが珍しくありません。リクエスト量が多いほど経済合理性が高まります。

蒸留が有効なケースは、(1) タスクが定型で大量に繰り返される、(2) レイテンシが重要、(3) データ機密性からAPI送信を避けたい、の3条件が揃う場合です。逆に、タスクが多様で少量、研究開発用途、という場合は汎用APIの直接利用の方が合理的です。

まとめ――蒸留は「巨人の肩に乗る」技術

知識蒸留は大規模教師モデルの能力を小規模生徒モデルへ移す技術です
LLMでは出力模倣型蒸留が最も一般的で、Alpaca以降のOSSモデル群を生み出しました
実装はデータ生成+Fine-tuningの2段階で、データ品質管理が成果を決定します
APIプロバイダーの利用規約には競合モデル開発禁止条項があり、要確認です
蒸留と量子化の組み合わせでTCOを1/40以下に削減できる実例があります

DE-STKでは、蒸留戦略の設計、データ生成パイプライン構築、生徒モデルのFine-tuning、量子化との組み合わせ最適化まで一気通貫でご支援します。高コストなAPI依存からの脱却をご検討の企業にご相談ください。

よくある質問(FAQ)

Q. LLMの蒸留(Distillation)とは何ですか?

A. GPT-4のような大規模な教師モデルの出力や中間表現を学習データとして、7B等の小規模な生徒モデルを訓練する技術です。生徒モデルは教師の「知識」を受け継ぎつつ、推論コストを大幅に削減できます。

Q. 蒸留と量子化はどう使い分けますか?

A. 蒸留はモデル自体を小型化する技術、量子化は同じモデルの精度を下げて軽量化する技術です。最大の効果を得るには両方を組み合わせます。例えば、70Bモデルを7Bに蒸留し、さらにINT4に量子化することで、推論コストを1/40以下にできます。

Q. OpenAIのAPIで生成したデータを蒸留に使えますか?

A. OpenAIの利用規約では、API出力を使ってOpenAIと競合するモデルを開発することを制限しています。蒸留の目的や利用先によっては規約違反になる可能性があるため、各プロバイダーの利用規約を必ず確認してください。