LLMのコスト構造完全解説――API料金・GPU費用・TCO試算の方法

「LLMはAPIを使えば安い」「自社運用は高くつく」――この二分法は、残念ながら実態を正しく表現していません。LLMの本当のコストはAPI料金だけではなく、GPU費用・開発工数・運用コストを含めたTCO(総所有コスト)で比較すべきものであり、利用規模によって最適解は大きく変わります。本記事では、LLMコストを4軸で分解し、API利用と自社運用のTCO試算方法、そして最適化テクニックまでを体系的に解説します。

LLMのコストは「API料金」だけではない

LLMの総コストは、大きく4つの構成要素に分解できます。トークン単位で課金されるAPI料金、モデルをホストするGPUインフラ費用、プロンプト設計やパイプライン開発にかかる開発工数、そして本番運用を支える監視・保守の運用コストです。どれか1つだけを見て「安い/高い」と判断すると、必ず後から想定外の請求に悩まされます。

LLMコスト
  ├── API料金(課金型)
  │     ├── 入力トークン課金
  │     ├── 出力トークン課金
  │     └── キャッシュ・バッチ割引
  ├── インフラ費用(運用型)
  │     ├── GPUインスタンス時間料金
  │     ├── ストレージ(モデル重み・ログ)
  │     └── ネットワーク転送料
  ├── 開発工数
  │     ├── プロンプト設計・評価
  │     ├── RAG構築・チャンキング
  │     └── 評価パイプライン整備
  └── 運用コスト
        ├── 監視・オブザーバビリティ
        ├── インシデント対応
        └── モデル更新時のリグレッション対策

API利用モデルのコスト構造

API利用モデルの基本はトークン単価です。入力と出力で単価が異なり、出力の方が3〜5倍高いのが一般的です。さらにプロンプトキャッシュ（同一プレフィックス部分の割引）、バッチAPI（非同期処理での割引）、コミットメントプラン（一定量の前払いによる割引）といった複数の割引メカニズムが組み合わさります。これらをうまく使うだけで、素朴な従量課金の半額以下に抑えることも珍しくありません。

モデル	入力 / 1Mトークン	出力 / 1Mトークン	キャッシュ割引	バッチ割引	最大コンテキスト長
GPT-4o	約 2.50 USD	約 10.00 USD	最大50%	約50%	128K
GPT-4o mini	約 0.15 USD	約 0.60 USD	最大50%	約50%	128K
Claude 3.5 Sonnet	約 3.00 USD	約 15.00 USD	最大90%	約50%	200K
Claude 3.5 Haiku	約 0.80 USD	約 4.00 USD	最大90%	約50%	200K
Gemini 1.5 Pro	約 1.25 USD	約 5.00 USD	最大75%	約50%	1M
Gemini 1.5 Flash	約 0.075 USD	約 0.30 USD	最大75%	約50%	1M

※2026年4月時点の公開情報を元にした概算。

def api_monthly_cost(requests_per_month, in_tokens, out_tokens,
                     in_price, out_price, cache_ratio=0.0, cache_discount=0.5):
    input_base = requests_per_month * in_tokens * in_price / 1_000_000
    output_base = requests_per_month * out_tokens * out_price / 1_000_000
    cached_saving = input_base * cache_ratio * cache_discount
    return input_base + output_base - cached_saving

# 例: GPT-4o, 月100万リクエスト, キャッシュ率60%
cost = api_monthly_cost(1_000_000, 800, 300, 2.50, 10.00,
                        cache_ratio=0.6, cache_discount=0.5)
print(f"月額: {cost:.0f} USD (約 {cost * 150:.0f} 円)")

自社運用モデルのコスト構造

自社運用（セルフホスト）では、GPUインスタンスの時間単価がコストの主軸になります。クラウドGPUは時間単位の従量課金ですが、リザーブドインスタンスやコミットメント契約で最大70%の割引を受けることも可能です。さらにGPUの種類（H100、A100、L40S等）、VRAM容量、対応するモデルサイズによって単価は桁違いに異なります。

加えて見落とされがちなのが、モデルサービングのソフトウェア選定(vLLM、TGI、Triton等)、ストレージ料金、外向きネットワーク転送料、そして何より「運用できる人件費」です。MLエンジニアの月単価が数十万〜数百万円という現実を踏まえると、GPU費用より運用人件費の方が大きい、というケースも日常的に発生します。

プロバイダ	インスタンス名	GPU	VRAM	時間単価	月額概算	対応モデルサイズ
AWS	g6.xlarge	L4	24GB	約 1.0 USD	約 720 USD	7B級まで
AWS	g6e.xlarge	L40S	48GB	約 2.0 USD	約 1,440 USD	13B級まで
AWS	p4d.24xlarge	A100×8	320GB	約 32.0 USD	約 23,000 USD	70B級まで
GCP	a2-highgpu-1g	A100	40GB	約 3.7 USD	約 2,700 USD	13B級まで
Azure	NC H100 v5	H100	80GB	約 7.0 USD	約 5,000 USD	70B級まで

※2026年4月時点の概算。リージョン・契約形態により変動します。

TCO（Total Cost of Ownership）の試算方法

API利用と自社運用の損益分岐点を見極めるには、TCOベースの比較が欠かせません。単純なトークン単価の比較では、運用人件費、開発工数、そして稼働率（GPUを使っていない時間も料金が発生する）を見落としてしまいます。

def tco_compare(monthly_requests, avg_tokens,
                api_in_price, api_out_price,
                gpu_monthly, ops_monthly,
                gpu_utilization=0.6):
    # API利用
    api_cost = monthly_requests * avg_tokens * (
        api_in_price * 0.7 + api_out_price * 0.3) / 1_000_000
    # 自社GPU運用
    self_host_cost = gpu_monthly / gpu_utilization + ops_monthly
    return {
        "API": api_cost,
        "Self-host": self_host_cost,
        "Break-even ratio": self_host_cost / api_cost if api_cost else float("inf"),
    }

print(tco_compare(
    monthly_requests=500_000, avg_tokens=1000,
    api_in_price=0.15, api_out_price=0.60,
    gpu_monthly=5000, ops_monthly=300_000 / 150,  # 月30万円換算
))

どちらを選ぶべきか迷ったら、次の判断ツリーで大まかな方向性を決めることができます。

Q1. 月間リクエスト数は数十万以上ですか？
├── No  --> API利用が有利。運用負担を避ける
└── Yes
     |
     v
Q2. 機密データでAPI送信が困難ですか？
├── Yes --> VPCデプロイ or 自社GPU運用必須
└── No
     |
     v
Q3. 運用できるMLエンジニアが社内にいますか？
├── No  --> API利用 or マネージド推論サービス
└── Yes --> TCO試算で比較し、50%以上安ければ自社運用へ

コスト最適化の実践テクニック

コストを下げるための具体的なテクニックとして、モデルルーティング、キャッシュ戦略、プロンプト最適化、量子化の4本柱があります。モデルルーティングは、タスクの難易度を事前に判定して、簡単な問い合わせには軽量モデル、複雑な推論が必要なものだけ高性能モデルに回す仕組みです。これだけで全体コストを5〜7割削減するケースも珍しくありません。

キャッシュ戦略はセマンティックキャッシュの導入が鍵で、似た意味のクエリを過去応答で返すことでLLM呼び出し自体を削減できます。プロンプト最適化は、システムプロンプト内の冗長な指示を整理する地道な作業ですが、入力トークン削減に直結します。量子化は自社運用時のGPUメモリ使用量を半分以下にすることで、小さいGPUでも大きなモデルを動かせるようにする手法です。

まとめ――コストを「管理」するための3つの原則

LLMのコストはAPI料金・GPU費用・開発工数・運用コストの4軸で捉える
API利用と自社運用の選択はTCO試算で判断する、感覚で決めない
最大のコスト削減効果はモデルルーティングとキャッシュの組み合わせ

DE-STKでは、LLMプロジェクトの初期コスト試算から、本番運用での継続的な最適化まで、TCOを可視化する支援を行っています。月額コストが想定を超えている、またはこれから本格展開を控えている企業様は、お気軽にご相談ください。

よくある質問

Q. LLMのAPI利用と自社運用、どちらが安いですか?

月間リクエスト数によります。目安として月間数万リクエスト以下ならAPI利用、数十万リクエスト以上なら自社運用がコスト効率的です。ただし自社運用には運用人件費やインフラ管理コストも加算されるため、TCO全体で比較する必要があります。

Q. LLMのAPIコストを削減する最も効果的な方法は何ですか?

最も効果的なのはモデルルーティング（タスク難易度に応じてモデルを切り替え）です。簡単なタスクに軽量モデルを使い、複雑なタスクのみ高性能モデルを使うことで、全体コストを50〜70%削減できる場合があります。プロンプトキャッシュの併用でさらに削減幅が広がります。

Q. LLMの月額コストはどのくらいですか?

利用規模により大きく異なります。小規模（1日数十リクエスト）なら月額数千円〜数万円、中規模（1日数百リクエスト）で月額数万〜数十万円、大規模（1日数千リクエスト以上）では月額数十万〜数百万円が目安です。本格展開前には必ず小規模パイロットで実測値を取り、試算することを推奨します。