LLMのスケーリング則――モデルサイズ・データ量・計算量の最適バランス

LLMのスケーリング則は、モデルサイズ（N）・データ量（D）・計算予算（C）の間に成り立つべき乗則であり、限られた計算予算で最高性能を達成するための最適配分を決定する指針です。Kaplan則（2020）からChinchilla則（2022）への進化は、「モデルを大きくすれば良い」という素朴な理解から「モデルとデータを同比率で拡大すべき」という修正への転換を意味しました。本記事では、スケーリング則の理論的基礎、2つの法則の違い、主要モデルの設計判断、そしてビジネス判断への応用方法を数式とコード付きで解説します。

スケーリング則とは何か――LLM開発の「地図」

LLMのスケーリング則は、Kaplan et al. (2020) の論文「Scaling Laws for Neural Language Models」でOpenAIが体系化しました。この論文の核心は、言語モデルの損失（Loss）が、モデルサイズ・データ量・計算予算のそれぞれに対して予測可能なべき乗則に従うという発見です。

基本のべき乗則は以下のように表現されます。

L(N) = (N_c / N)^α_N

ここでL(N)はモデルサイズNに対する損失、N_cは定数、α_N ≈ 0.076 は経験的に得られた指数です。式の意味するところは、「モデルサイズを10倍にすれば、損失が一定比率で減少する」という、予測可能な関係性です。同様の関係はデータ量Dと計算予算Cについても成り立ちます。

この発見は、LLM開発にパラダイムシフトをもたらしました。従来の機械学習研究では、モデル性能の予測は困難で、実際に学習させて確認するしかない側面がありました。スケーリング則により、「このリソースを投下すれば、このくらいの性能になる」という予測が可能になり、LLM開発は「科学」ではなく「工学」の段階に入ったのです。

Kaplan則からChinchilla則へ――「もっとデータを」

Kaplan則は、計算予算を固定したとき、モデルサイズの拡大を優先すべきと結論しました。論文の分析によると、計算予算の増加のほとんどをモデルサイズの拡大に投じるのが最適とされ、これがGPT-3（175B parameters、300B tokens）などの「モデル重視」設計の根拠になりました。

しかし2022年、DeepMindの研究チームがHoffmann et al. 「Training Compute-Optimal Large Language Models」で、この結論を覆す発見を発表しました。彼らは400以上の異なる規模でLLMを学習させ、計算予算が与えられたときの最適なN/Dの関係を再計算しました。その結果、モデルサイズとデータ量を「同比率で」スケールさせるべきという結論に至ったのです。

Chinchilla最適の関係式は以下のようになります。

D_opt ≈ 20 × N_opt、C ≈ 6 × N × D

つまり、最適なデータ量はモデルサイズの約20倍のトークン数であり、計算予算Cは6×N×DのFLOPsで近似できます。この式に基づくと、GPT-3（175B, 300B tokens）はデータ量が著しく不足しており、Chinchilla最適ではD ≈ 3.5Tトークンで学習すべきだったことになります。DeepMindは、GPT-3と同じ計算予算でChinchilla最適のモデル（70B, 1.4T tokens）を学習し、GPT-3を広範なベンチマークで上回ることを実証しました。

項目	Kaplan則（2020）	Chinchilla則（2022）
最適配分の方針	モデルサイズ優先	モデルサイズとデータ量を同比率
データ量の重要度	相対的に低い	モデルサイズと同等
計算効率	モデルが大きすぎてデータ不足	計算予算に対して最適
代表モデル例	GPT-3 (175B, 300B tokens)	Chinchilla (70B, 1.4T tokens)
推奨N:D比率	約1:1.7	約1:20

計算予算が一定のときのトレードオフを視覚化すると、以下のようになります。

【計算予算一定での N と D のトレードオフ】

  損失 L
    ^
    |
    | Kaplan則の推奨点 --> [モデル大・データ少]
    |       /
    |      /  損失が下がらない領域（Over-parameterized）
    |     /
    |    /
    |   *    <-- Chinchilla最適点（損失最小）
    |    \
    |     \
    |      \  損失が下がらない領域（Under-parameterized）
    |       \
    |        [モデル小・データ多]
    +-------------------------------------> モデルサイズ N
     少                                       多

Chinchilla最適点を中心に、モデルサイズが大きすぎても小さすぎても損失は下がらない、という関係が示されています。実務では、この最適点を目指して学習設定を行います。

スケーリング則の実例――GPT-4、LLaMA、Chinchillaの設計判断

主要LLMの設計判断をスケーリング則の観点から分析すると、各モデルの戦略的な選択が見えてきます。

モデル名	パラメータ数	学習トークン数	N:D比率	Chinchilla最適との差	設計意図
GPT-3	175B	300B	1:1.7	大幅にデータ不足	Kaplan則に基づく設計
Chinchilla	70B	1.4T	1:20	ほぼ最適	Chinchilla則の実証
LLaMA-2 7B	7B	2T	1:286	大幅にデータ過剰	推論コスト最適化（Over-training）
LLaMA-2 70B	70B	2T	1:28.5	Chinchillaに近い	バランス重視
Mistral 7B	7B	8T（推定）	1:1143	大幅にデータ過剰	小型モデルの限界を引き出す

この表で注目すべきはLLaMAシリーズです。LLaMA-2 7BはD/N比が286と、Chinchilla最適の20を大きく超えています。これは「Over-training」と呼ばれる戦略で、Chinchilla最適を意図的に超えた大量のデータで学習することで、小型モデルでも高い性能を引き出します。この戦略の合理性は、推論コストの観点にあります。学習は1回で済みますが、推論は無数に行われるため、推論時に小型モデルを使える方がトータルコストが低くなるのです。

つまり、Chinchilla最適は「学習コスト最適」であり、「トータルコスト最適」とは限らないのです。実務での設計判断では、推論量の予測に基づいて、どこまでOver-trainingするかを決定します。

スケーリング則の限界と拡張

スケーリング則は強力なツールですが、万能ではありません。以下の4つのケースでは、単純な法則の適用に注意が必要です。

1. データ品質の影響――Chinchilla則は「データ量」のスケーリングを論じましたが、データの「品質」は考慮していません。近年の研究（FineWeb、The Pile v2など）では、高品質なデータセットで学習したモデルが、低品質な大量データで学習したモデルを上回ることが示されています。量だけでなく質のスケーリングが重要になりつつあります。

2. タスク特化性能とのギャップ――スケーリング則は汎用的な言語モデリング損失を対象としていますが、特定タスク（数学、コーディング、医療）での性能は単純なべき乗則に従わないことが観察されています。タスク固有のスケーリングカーブを別途検証する必要があります。

3. Emergent Abilities（創発的能力）――Wei et al. (2022) は、一部の能力（複数ステップ推論、命令追従など）が特定のモデルサイズを超えた時点で突然現れる「創発」現象を報告しました。この現象はべき乗則では予測できず、スケーリング則の限界を示しています。ただし、近年の再解釈では「創発」の多くは評価指標の選び方に依存する可能性も指摘されています。

4. Repeatデータの影響――インターネット上の高品質テキストデータが枯渇しつつある現状で、同じデータを複数エポック学習する必要が生じています。Repeatデータの影響は単純な「データ量の増加」とは異なり、スケーリング則の修正が必要です。Muennighoff et al. (2023) の研究では、最大4エポックまでのRepeatは効果的ですが、それを超えると収益逓減することが示されています。

スケーリング則に基づく実務計算は、以下のPythonコードで実装できます。

import math

def chinchilla_optimal(compute_budget_flops):
    """
    計算予算（FLOPs）が与えられたとき、Chinchilla則に基づく
    最適なモデルサイズNとデータ量Dを推定する。
    Hoffmann et al. (2022) の経験則より、D/N 比は約20
    """
    # 近似式: C ≈ 6 * N * D  （FLOPsの推定式）
    # Chinchilla最適: D ≈ 20 * N
    # 2式から: C ≈ 6 * N * 20 * N = 120 * N^2
    N_optimal = math.sqrt(compute_budget_flops / 120)
    D_optimal = 20 * N_optimal
    return N_optimal, D_optimal

# 計算予算: 1e22 FLOPs （GPT-3クラスの学習規模）
compute = 1e22
N, D = chinchilla_optimal(compute)
print(f"最適モデルサイズ: {N/1e9:.1f}B parameters")
print(f"最適学習データ量: {D/1e9:.1f}B tokens")
print(f"D/N 比率: {D/N:.1f}")

このコードは計算予算1e22 FLOPsのとき、最適モデルサイズと最適データ量を推定します。実行すると、約9.1B parameters・182B tokensが最適という結果になります。実際のLLM開発では、このような推定を出発点として、推論コストやデータの入手可能性を考慮してパラメータを調整します。

推論コストのスケーリング

スケーリング則の議論は長らく「学習コスト最適化」に焦点を当ててきましたが、実務では推論コストの方が支配的になるケースが多々あります。月間数十億トークンを処理するサービスでは、学習コストの10倍以上の推論コストがかかることも珍しくありません。

Over-trainingの戦略は、この推論コストの問題への回答です。Chinchilla最適の2〜10倍のデータで小型モデルを学習させることで、学習時間とコストは増加しますが、推論時に使うモデルが小さいため、運用全体のコストが大幅に削減されます。LLaMA-2やMistralのOver-training戦略は、まさにこの経済的判断に基づいています。

近年注目されている「Test-time Compute」（推論時スケーリング）も、推論コストとモデルサイズのトレードオフを別の角度から論じています。小さいモデルでも推論時に多くの計算を使うことで、大きいモデルの性能を再現できるという発想です。スケーリング則の議論は、学習から推論へと軸足を広げつつあります。

ビジネスへの示唆――スケーリング則を経営判断に活かす

スケーリング則は、研究者だけでなく経営層にとっても有用な思考の枠組みです。AI投資の判断において、以下の3つの観点で活用できます。

1. モデル選定――自社のユースケースに必要な性能水準を定義し、スケーリング則から逆算して必要なモデル規模を推定します。「GPT-4クラスが必要か、それとも7Bクラスで十分か」という問いに、根拠を持って答えられるようになります。過剰な性能への投資を避け、コスト最適化を実現する判断軸になります。

2. コスト最適化――学習コスト vs. 推論コストのトレードオフを定量的に検討できます。月間推論量の予測から、「Chinchilla最適で学習して大型モデルを使う」か「Over-trainingで小型モデルを使う」かの判断が可能になります。この判断が、生成AIサービスの損益に直接影響します。

3. 投資判断――AI企業のバリュエーションにおいて、スケーリング則は「このモデルは将来どこまで性能が伸びるか」という問いへの根拠を提供します。計算予算を増やせば線形に性能が向上するのか、すでに限界に近いのか――という判断は、M&Aや投資の評価で重要な論点です。Tech DDでのAI企業評価でも、スケーリング則は重要な評価軸になります。

まとめ――スケーリング則はLLM時代の「経済学」

スケーリング則は、LLM開発を勘と経験の世界から予測可能な工学へと引き上げました。同時に、その理解は「AI投資のリテラシーそのもの」と言えます。モデルサイズ・データ量・計算予算の関係を把握しているかどうかが、AI戦略の質を左右します。

スケーリング則はモデルサイズ・データ量・計算予算の間のべき乗則であり、性能を予測可能にする
Kaplan則（モデル重視）からChinchilla則（モデル・データ同比率）への進化が、現代の設計を形作った
Over-trainingは推論コスト最適化の戦略として、LLaMA・Mistralなどに採用されている
データ品質・タスク特化性・創発的能力といった法則の限界も理解する必要がある
スケーリング則の理解はAI投資のリテラシーそのものである

LLMの技術選定やAI投資判断については、DE-STKにお気軽にご相談ください。

FAQ

Q: LLMのスケーリング則とは何ですか？

モデルのパラメータ数・学習データ量・計算予算の間に成り立つべき乗則です。この法則により、計算予算が与えられたとき、最高性能を達成するためのモデルサイズとデータ量の最適な配分を予測できます。

Q: Chinchilla最適とは何ですか？

DeepMindが2022年に提唱した、モデルサイズとデータ量を同比率でスケールさせるべきというスケーリング則です。OpenAIのKaplan則がモデルサイズ重視だったのに対し、データ量の重要性を示しました。

Q: スケーリング則はビジネスにどう活用できますか？

自社に必要なAI性能を達成するためのモデル規模と計算コストを事前に推定でき、AI投資の意思決定に活用できます。また、APIプロバイダーの選定時にモデルのコストパフォーマンスを評価する基準にもなります。