LLMの推論時スケーリング――Test-time Computeの最新研究

推論時スケーリング（Test-time Compute）は、モデルの学習時ではなく推論時に計算量を増やすことで性能を向上させるアプローチです。OpenAIのo1やDeepSeek-R1に代表されるように、従来の「より大きなモデルをより多くのデータで学習する」というパラダイムに代わる、LLMの新たな性能向上の軸として急速に注目を集めています。本記事では、その技術的背景、主要手法、コスト構造、そしてビジネスへの実践的示唆を体系的に解説します。

推論時スケーリングとは――「考える時間」を増やす

従来のLLM性能向上は、Kaplanらが示したスケーリング則に従い、パラメータ数・データ量・学習計算量を増やすことで達成されてきました。つまり「学習時により多くのリソースを投入する」アプローチです。しかし、学習時スケーリングには経済的・物理的な天井が近づきつつあります。数十万GPU時間を要する事前学習を単純に10倍にすることは、もはや現実的ではありません。

そこで浮上したのが推論時スケーリングです。人間が難しい数学の問題に取り組むとき、即答せずに紙に式を書き、検算し、別解を試すように、モデルにも「考える時間」を与えることで性能を引き出そうという発想です。学習済みモデルをそのまま用いても、推論時に計算量を投入することで、数学やコーディングなど推論タスクにおいて顕著な性能向上が得られることが示されています。

【学習時スケーリング vs. 推論時スケーリング】

[学習時スケーリング]
  Data + Params + Compute(train)
         |
         v
  [Pre-trained LLM] ----> [1-shot answer]
                               (低コスト / 固定性能)

[推論時スケーリング]
  [Pre-trained LLM]
         |
         v
  Prompt --> [Think] --> [Verify] --> [Refine] --> Answer
               ^______________|
                  (iterative)
                               (高コスト / 可変性能)

※ 学習時は一度投資すれば以降は低コスト、推論時はクエリごとにコストが発生

推論時スケーリングの主要手法

推論時スケーリングには複数のアプローチが存在し、それぞれ計算量の増加パターンと得意とするタスクが異なります。ここでは代表的な4手法を整理します。

Chain-of-Thought（CoT）と自己改善ループ

Wei et al. (2022) が提案したChain-of-Thoughtプロンプティングは、モデルに「段階的に考えてください」と促すことで中間推論過程を出力させ、最終回答の精度を向上させる手法です。o1やDeepSeek-R1は、このCoTを強化学習で最適化し、非常に長い内部思考チェーンを自律的に生成します。思考の長さそのものが性能向上のドライバとなる点が革新的です。

Best-of-N サンプリング

同じプロンプトに対してN回のサンプリングを行い、Verifier（検証モデル）またはReward Modelで最良の出力を選択する手法です。Nを増やせば単調に性能が向上する傾向があり、実装も容易です。ただしVerifierの品質が性能上限を決定するため、評価モデルの設計が鍵となります。

Tree Search（MCTS等）

推論経路を木構造として展開し、モンテカルロ木探索(MCTS)などで有望な枝を選択的に深掘りする手法です。AlphaGoが囲碁の着手選択にMCTSを用いたのと類似した発想で、LLMの推論ステップを着手とみなします。探索と活用のバランスを制御できる反面、実装の複雑さは高くなります。

Self-Refinement / Iterative Revision

Madaan et al. (2023) のSelf-Refineに代表される、モデルが自身の出力を批判的に評価し、フィードバックに基づいて修正を繰り返すループです。反復ごとに出力品質が向上することが示されていますが、過剰な自己批判が性能を劣化させる「過剰修正」の問題も報告されています。

推論時計算量と性能の関係は、概ね以下のような経験的べき乗則で近似されます。ここで$P$は性能、$C$は推論時計算量、$\alpha$はタスク依存の指数です。

$$P(C) \approx P_0 + A \cdot \log(C)^{\alpha}$$

Snell et al. (2024)「Scaling LLM Test-Time Compute Optimally」では、推論時計算量を最適配分することで、14倍大きなモデルを上回る性能を達成できる条件が示されています。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def best_of_n_generate(model, tokenizer, prompt, verifier, n=8):
    """Best-of-N サンプリングの簡易実装"""
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    candidates = []
    for _ in range(n):
        out = model.generate(
            **inputs,
            do_sample=True,
            temperature=0.8,
            top_p=0.95,
            max_new_tokens=512,
        )
        text = tokenizer.decode(out[0], skip_special_tokens=True)
        score = verifier.score(prompt, text)
        candidates.append((score, text))
    best = max(candidates, key=lambda x: x[0])
    return best[1]

手法	計算量増加倍率	性能向上幅	適するタスク	実装難易度
Chain-of-Thought	2〜5倍	中（5〜15pt）	数学・論理推論	低
Best-of-N	N倍（線形）	中〜大（log N）	コード生成・要約	低〜中
Tree Search（MCTS）	10〜100倍	大（20pt超）	複雑な計画・証明	高
Self-Refinement	3〜10倍	中（変動大）	文章推敲・コード修正	中
o1スタイル長CoT	10〜100倍	大（20〜40pt）	STEM全般	高（RL必要）

OpenAI o1とDeepSeek-R1の技術分析

OpenAI o1は、強化学習によって長い内部推論チェーンの生成を最適化したモデルとされています。公式にはアルゴリズムの詳細は非公開ですが、Process Reward Modelを用いた推論ステップごとのフィードバック、および推論チェーン長に対する報酬設計が中心と推定されます。結果として、MATHベンチマークで94.8%、GPQA Diamondで78.0%という従来のGPT-4を大きく上回る性能を達成しました。

一方、DeepSeek-R1(DeepSeek-AI, 2025「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」)は、その技術レポートでプロセスの詳細を公開した点が画期的です。教師あり微調整なしのピュアRL（DeepSeek-R1-Zero）から始め、段階的にCold-start SFTとRLを組み合わせることで、o1相当の推論能力をオープンウェイトで実現しています。

ベンチマーク	GPT-4o	o1	DeepSeek-R1	推論時間の増加
MATH-500	74.6%	94.8%	97.3%	約20〜50倍
AIME 2024	13.4%	79.2%	79.8%	約30〜60倍
GPQA Diamond	49.9%	78.0%	71.5%	約10〜30倍
Codeforces (Rating)	759	1673	2029	約20〜50倍
MMLU	88.0%	91.8%	90.8%	約5〜10倍

特筆すべきは、DeepSeek-R1-Zeroが教師データなしのRLだけで「Aha moment」と呼ばれる自己省察的な推論パターンを創発した点です。これは推論能力が十分な基盤モデルと適切な報酬設計があれば、明示的なCoT教師データなしでも獲得可能であることを示唆しています。

推論時スケーリングのコスト分析

推論時スケーリングの導入にあたり、コスト構造の理解は不可欠です。o1スタイルのモデルでは、ユーザーに見えない「思考トークン」が大量に消費されます。APIプロバイダーの料金体系も、このThinking Tokensを入力・出力とは別に課金する形式に進化しつつあります。

推論コストは概ね次式で表されます。ここで$T_{in}$は入力トークン、$T_{think}$は思考トークン、$T_{out}$は出力トークン、$p_i, p_t, p_o$はそれぞれの単価です。

$$\text{Cost} = p_i \cdot T_{in} + p_t \cdot T_{think} + p_o \cdot T_{out}$$

実務的には、$T_{think}$が全体の80〜95%を占めるケースが多く、従来の入出力コストの見積もりが通用しません。加えて、レイテンシも数十秒から数分に達するため、UX設計の見直しも必要です。一方で、高精度が必要なタスクでは、リトライや人間によるレビューのコストが削減されるため、総所有コスト(TCO)で見れば効率的になる場合もあります。

Process Reward Models（PRM）と推論の制御

Process Reward Model（PRM）は、推論の各ステップを評価するモデルであり、最終結果のみを評価するOutcome Reward Model（ORM）と対比されます。Lightman et al. (2023)「Let’s Verify Step by Step」では、数学問題においてPRMがORMを大幅に上回る選択性能を示しました。ステップごとの誤りを早期に検出できるため、誤った推論経路に計算資源を投じることを防ぎます。

PRMがTest-time Computeの効率を向上させるメカニズムは二つあります。第一に、Best-of-N選択時にステップ単位の細かいスコアリングが可能になり、ノイジーな最終結果のみの比較より信頼性が高まります。第二に、Tree Searchと組み合わせることで、有望でない枝を早期に刈り込み、探索効率を劇的に改善します。OpenAI PRM800Kデータセットの公開以降、学術・産業両面でPRM研究が加速しています。

ただし、PRMの学習には高品質なステップ単位のラベルが必要であり、そのアノテーションコストが実用化のボトルネックとなっています。近年は、モデル自身がステップを評価するself-critiqueや、MCTS由来のロールアウトから自動的にプロセス報酬を生成するアプローチが研究されています。

ビジネスへの示唆――推論コストの新しい考え方

推論時スケーリングの登場により、企業のAI活用戦略は「安い推論」と「高品質な推論」の二層構造を前提に設計する必要が出てきました。例えば、社内FAQの自動応答やログ分類といった大量処理タスクには、軽量モデルと通常推論を用い、契約書レビューや財務分析のレポート生成といった高付加価値タスクにはo1系の深い推論を適用する、といった使い分けです。

APIプロバイダーの料金体系も変化しており、従来の「入力・出力」二層課金から「入力・思考・出力」三層課金への移行が進んでいます。このため、予算管理やコスト予測のモデルもアップデートが必要です。特に思考トークンは見えにくいコストであるため、ログモニタリングとトークン予算の上限設定は必須となります。

自社AIシステム設計における判断基準としては、タスクの正誤が明確か、段階的推論が有効か、エラーの業務影響が大きいか、という三点が目安です。この三つが満たされる場面では、推論時スケーリングへの投資が高いROIをもたらします。逆に、応答速度が重要なリアルタイム用途や単純処理では従来アプローチが依然として合理的です。

まとめ――推論時スケーリングはLLMの「第2の成長曲線」

推論時スケーリングは学習時スケーリングの飽和に対する有力な回避策であり、LLM性能向上の第二の軸として確立しつつあります
CoT、Best-of-N、Tree Search、Self-Refinementなど複数の手法があり、タスク特性に応じた選択が重要です
o1・DeepSeek-R1は強化学習による長CoTの自律生成で従来モデルを大幅に凌駕しました
思考トークンを含む新しいコスト構造への対応が実務上の必須課題です
高精度タスクと大量処理タスクで推論戦略を分ける「二層AI戦略」が今後の標準となります

DE-STKでは、日本企業のLLM導入支援において、推論時スケーリングを含む最新アーキテクチャ選定、コスト最適化、評価パイプライン設計をワンストップでご支援しています。生成AI ROIの試算からPoC、本番運用まで、データ基盤と一体で設計することで、持続可能なAI活用を実現します。

よくある質問(FAQ)

Q. 推論時スケーリングとは何ですか?

A. モデルの学習時ではなく推論時に計算量を増やすことで性能を向上させるアプローチです。Chain-of-Thoughtによる段階的推論やBest-of-Nサンプリングなどの手法があり、OpenAI o1やDeepSeek-R1ではMATHやコーディングベンチマークで従来モデルを大きく上回る成果を上げています。

Q. 推論時スケーリングのコストは従来の推論と比べてどのくらい増えますか?

A. 手法により異なりますが、o1スタイルの深い推論では従来の10〜100倍のトークンを消費する場合があります。ただし、高精度が必要なタスクではリトライや人的確認のコストを削減できるため、総所有コスト(TCO)で見れば効率的になるケースもあります。

Q. どのようなタスクに推論時スケーリングが有効ですか?

A. 数学的推論、コード生成、複雑な分析など、正解が明確で段階的な思考が有効なタスクで特に効果的です。一方、単純な分類や要約など大量処理が必要なタスクではコスト効率が悪くなるため、タスクに応じた使い分けが重要です。