「日本語ならどのLLMが最強ですか?」――この問いに単純な一言で答えられる時代は終わりました。2026年現在の日本語LLMは商用モデル(GPT-4o、Claude、Gemini)と国産OSSモデル(Swallow、PLaMo等)の二層構造となっており、用途によって最適解が大きく変わります。本記事では、日本語LLMの現状と課題、主要モデルの比較、評価方法、そして用途別の選定基準までを体系的に解説します。

日本語LLMの現状と課題

グローバルで主流のLLMは、英語を中心とした大規模コーパスで学習されており、日本語は全学習データのわずか数パーセントに留まるのが一般的です。それにもかかわらず近年のLLMが日本語でも高い性能を発揮しているのは、モデルサイズの拡大とマルチリンガル転移学習の効果によるものです。

とはいえ、日本語特有の課題は残っています。第一にトークン効率の問題で、日本語は英語と比較して同じ意味を表現するのに約1.5〜3倍のトークンを必要とします。これは直接APIコストに跳ね返ります。第二に敬語・文体の制御です。ビジネス文書で求められる謙譲語・丁寧語・尊敬語の使い分けは、汎用モデルが苦手とする領域です。第三に漢字・カタカナ・ひらがな混在テキストの処理で、特に専門用語や固有名詞の表記ゆれに弱い傾向があります。

主要な日本語対応LLMの比較

日本語対応LLMは「海外商用モデル」と「国産OSSモデル」の2つの系譜に大別できます。海外商用モデルは総合的な性能で優れる一方、国産OSSモデルは日本語特有の文脈や敬語の扱い、トークン効率、そして自社運用の柔軟性で強みを発揮します。

モデル名ベースパラメータ数日本語ベンチスコアライセンス提供元特徴
GPT-4o独自非公開非常に高い商用APIOpenAI総合性能で首位級
Claude 3.5 Sonnet独自非公開非常に高い商用APIAnthropic長文読解・敬語が得意
Gemini 1.5 Pro独自非公開高い商用APIGoogle長コンテキスト1M
Swallow 70BLlama 370B高いLlama License東京科学大日本語継続学習モデル
PLaMo 100B独自100B高い商用/研究用Preferred Networks国産フルスクラッチ
CALM 3独自22B中〜高商用CyberAgent対話に強い
Llama 3 ELYZA JP 8BLlama 38BLlama LicenseELYZA軽量で扱いやすい
Rakuten AI 7BMistral7BApache 2.0楽天小規模・商用可
※2026年4月時点の公開情報。スコアや状況は随時更新されます。

日本語性能の評価方法

日本語性能の定量評価には、いくつかのベンチマークが存在します。代表的なものがJGLUE(自然言語理解タスク集)、Japanese MT-Bench(対話品質)、JAQKET(知識問答)、Japanese Vicuna QA(指示従順性)などです。ただし、ベンチマークで高スコアを出すモデルが実務で最高の性能を発揮するとは限りません。

実務での評価には「自社の業務データで作ったテストケース」が欠かせません。業界固有の用語、顧客対応での敬語、専門文書の要約といった実タスクでこそ、モデルの実力が見えてきます。以下は自作テストケースでLLMの日本語性能を自動評価するスクリプト例です。

from openai import OpenAI
client = OpenAI()

def evaluate_jp_llm(model_name: str, test_cases: list) -> float:
    total_score = 0
    for case in test_cases:
        output = client.chat.completions.create(
            model=model_name,
            messages=[{"role": "user", "content": case["prompt"]}],
        ).choices[0].message.content
        judge = client.chat.completions.create(
            model="gpt-4o",
            messages=[{"role": "user",
                       "content": f"""期待する回答: {case['expected']}
実際の回答: {output}
日本語としての自然さ・敬語・内容一致を1〜5で採点してください。数字のみ。"""}],
        ).choices[0].message.content.strip()
        total_score += int(judge)
    return total_score / len(test_cases)
指標名測定対象スコア範囲信頼性適用場面
JGLUE言語理解(分類・含意)0-100高(学術)基礎能力比較
Japanese MT-Bench対話生成品質1-10中(LLM-judge)チャットUI
JAQKET知識問答0-100QA系アプリ
自社テストケース業務固有タスク自由設計最も実務寄り本番選定

日本語LLMの選定基準

用途に応じた選定の大枠として、次のフローチャートが参考になります。「とにかく性能優先」「コスト優先」「データを外に出せない」といった主要な分岐で、実務的な選択肢が自然に絞り込まれます。

Q1. 機密データ(顧客情報・契約書等)を扱いますか?
├── Yes --> Q2. 自社GPU運用できますか?
│          ├── Yes --> Swallow / PLaMo / ELYZAモデル
│          └── No  --> VPC対応のAzure OpenAI / Claude (AWS Bedrock)
└── No
     |
     v
Q3. 最高精度が必要ですか?
├── Yes --> GPT-4o / Claude 3.5 Sonnet
└── No
     |
     v
Q4. 月間利用量は大規模ですか?
├── Yes --> Gemini 1.5 Flash / GPT-4o mini / SLM自社運用
└── No  --> 軽量商用API

用途別の推奨としては、カスタマーサポートには敬語表現に強いClaudeが向き、ビジネス文書作成にはGPT-4oが定番です。技術文書翻訳にはGemini 1.5 Proが長コンテキストで一括処理できます。社内検索RAGにはトークン効率の良い国産モデルがコスト面で有利です。

日本語性能を向上させるテクニック

既存モデルの日本語性能を引き上げるには、プロンプトの工夫とファインチューニングの2つのアプローチがあります。プロンプトでは「敬語で回答してください」「500文字以内で」「箇条書きで」といった明示的な指示が有効です。また、Few-shotで良い回答例を1〜2件示すだけで品質が大きく向上します。

from openai import OpenAI
client = OpenAI()

system = """あなたは日本企業のカスタマーサポート担当です。
次のルールに従って回答してください。
- 必ず丁寧語・尊敬語・謙譲語を正しく使い分ける
- 1回の回答は300文字以内にまとめる
- 冒頭に相手への謝意を述べる
- 不明な点は「確認のうえ改めてご連絡いたします」と記載する"""

response = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "system", "content": system},
              {"role": "user", "content": "注文した商品がまだ届きません"}],
)

まとめ――日本語LLMは「汎用」と「特化」の使い分けが鍵

  • 日本語性能はGPT-4o・Claudeの商用モデルが総合で一歩リード
  • 国産OSSモデルはトークン効率・敬語・自社運用で強みを持つ
  • 評価は公開ベンチマークより自社テストケースの方が実用的
  • 用途別にモデルを使い分けることで品質とコストの両立が可能

DE-STKでは、日本語LLMの選定支援、自社データによる評価設計、国産OSSモデルの自社運用構築まで一貫して支援しています。どのモデルを選ぶべきか迷われている方も、既存システムの日本語品質に課題を感じている方も、お気軽にご相談ください。

よくある質問

Q. 日本語に最も強いLLMはどれですか?

2026年時点では、GPT-4oとClaude 3.5 Sonnetが日本語の総合性能で高い評価を得ています。ただし、敬語表現や専門用語の扱いなど細かな要件により最適なモデルは異なります。自社の用途に合わせたテストケースでの評価が重要です。

Q. 日本語LLMのトークン効率はどのくらいですか?

日本語は英語と比べてトークン効率が低く、同じ内容を表現するのに約1.5〜3倍のトークン数が必要です。これはAPIコストに直接影響するため、日本語利用時のコスト試算では英語の2〜3倍を見込む必要があります。国産モデルの中にはトークナイザーが日本語最適化されており効率が改善されているものもあります。

Q. 日本語特化のOSSモデルを使うメリットは?

日本語テキストでの推論が高速(トークン効率が高い)、日本の商習慣や文化に合った応答が期待できる、ファインチューニングのベースモデルとして効率的、といったメリットがあります。ただし、汎用的な推論能力では大規模商用モデルに劣る場合があります。