マルチモーダル基盤モデルの技術動向――GPT-4V・Gemini・Claude以後

マルチモーダル基盤モデルは、テキスト・画像・音声・動画を統一的に理解・生成するモデルであり、LLMの次の主戦場です。アーキテクチャは大きく「コネクタ型」と「ネイティブ統合型」に分かれ、それぞれの設計思想を理解することがモデル選定の鍵となります。本記事では、両者の違い、主要モデル(GPT-4o、Gemini 1.5、Claude 3.5)の比較、評価ベンチマーク、そして実務応用と導入判断のフレームワークを整理します。

マルチモーダルAIの全体像――テキストだけの時代の終わり

マルチモーダル基盤モデル(Multimodal Foundation Model)とは、複数の情報形式（モダリティ）を扱える大規模モデルを指します。対象はテキスト、画像、音声、動画、3D、さらには時系列や構造化データまで広がります。従来のLLMはテキストのみを扱ってきましたが、現実世界の情報は本質的にマルチモーダルであり、真の汎用AIを目指すならこの方向は避けて通れません。

人間の認知もマルチモーダルであり、文字だけでは伝わらない情報が大量に存在します。製品の不良を写真で見せて「これは何の問題か」と尋ねる、動画の一部を指差して「この動きはおかしい」と質問する、こうした自然な使い方を実現するためには、モデルが複数モダリティを統合的に処理できる必要があります。

【Multimodal Foundation Model I/O】

Inputs                                 Outputs
  Text    --+                    +--> Text
  Image   --|                    |--> Image (gen models)
  Audio   --| ==> [MM Model] ==> |--> Audio (TTS)
  Video   --|                    |--> Structured
  Code    --+                    +--> Action (tool call)

Unified latent representation across modalities
Shared reasoning and retrieval path

マルチモーダルモデルのアーキテクチャ分類

コネクタ型(LLaVA方式)

Liu et al. (2023)「Visual Instruction Tuning」のLLaVAに代表されるコネクタ型は、(1) 既存の画像エンコーダ(CLIP ViT等)、(2) 射影層(Projector、通常は線形層またはMLP)、(3) 既存のLLMの3段構成です。既存のLLMとビジョンエンコーダを再利用できるため、学習コストが低く、モダリティの追加も柔軟に行える点が特徴です。

画像特徴量は次のように射影されます。ここで$Z_v$はビジョンエンコーダの出力、$W$はProjectorの重み、$H_v$はLLMが受け取れる埋め込み次元に変換された画像トークン列です。

$$H_v = W \cdot Z_v, \quad Z_v = \mathrm{ViT}(X_v)$$

ネイティブ統合型(Geminiのアプローチ)

Googleが開発したGeminiシリーズに代表されるネイティブ統合型は、最初から全モダリティを単一モデルで事前学習するアプローチです。モダリティごとに異なるエンコーダを経由するコネクタ型と異なり、入力段階からマルチモーダルトークンを扱うため、モダリティ間の相互作用を深い層で自然に学習できます。学習コストは巨大ですが、モダリティ横断の推論性能で優位性が期待されます。

GPT-4oもネイティブ統合型に近い設計で、特に音声をテキストへ変換せずに直接処理する点が従来のチェーン型（STT→LLM→TTS）との決定的な違いです。このためレイテンシが大幅に削減され、リアルタイム音声対話が実用可能なレベルに到達しました。

項目	コネクタ型	ネイティブ統合型
代表モデル	LLaVA、MiniGPT-4、Qwen-VL	GPT-4o、Gemini、Chameleon
学習コスト	低〜中(既存LLM再利用)	非常に高
モダリティ追加の柔軟性	高(新モダリティのみ学習)	低(再事前学習が必要)
性能上限	中(エンコーダ依存)	高(深い統合)
実装難易度	中	高
オープンソース度	高	低

主要マルチモーダルモデルの比較

2025年現在、実務で検討すべき主要マルチモーダルモデルは限られています。商用APIではGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro/Flashが中心で、オープンソースではLLaVA-NeXT、Qwen2-VL、InternVL2などが主要候補となります。

モデル	対応モダリティ	MMMU精度	API価格(入力/1M tok)	コンテキスト長	特徴
GPT-4o	Text/Image/Audio/Video	69.1%	約5 USD	128K	音声リアルタイム性
Claude 3.5 Sonnet	Text/Image	68.3%	約3 USD	200K	文書理解と精密性
Gemini 1.5 Pro	Text/Image/Audio/Video	62.2%	約1.25 USD	1M〜2M	長文脈と動画入力
Gemini 1.5 Flash	Text/Image/Audio/Video	56.1%	約0.075 USD	1M	低コスト高速
Qwen2-VL 72B	Text/Image/Video	64.5%	OSS	32K	オープンで性能高
LLaVA-NeXT 34B	Text/Image	51.1%	OSS	4K〜	研究・検証向け

GPT-4oは音声リアルタイム性と全モダリティ対応が強みで、対話UIとの親和性が高い一方、文書理解ではClaude 3.5 Sonnetが優勢です。Gemini 1.5は100万トークンを超える圧倒的な長文脈と動画入力が特徴で、長尺映像の分析や膨大な資料の横断レビューで他を寄せ付けません。コスト最適化を重視する場合はGemini 1.5 FlashがROIの面で突出しています。

マルチモーダルの評価指標とベンチマーク

マルチモーダルモデルの評価は、テキスト単体よりもはるかに複雑です。主要ベンチマークとしては、MMMU(College-level multimodal reasoning)、MMBench(包括的なVision-Language能力)、VQAv2(視覚質問応答)、SEED-Bench、MathVista(視覚数学推論)などが使われます。MMMUは大学レベルの知識を要する難度で、モデル間の実力差が明確に出る指標として重視されています。

評価の難しさは、出力がテキストでも「画像の正しい理解に基づいているか」を測る必要がある点にあります。形式的には正しい出力でも、視覚情報を実際には使っていないケース（Language Prior hacking）が多く、評価設計に細心の注意が要ります。

import base64
from openai import OpenAI

client = OpenAI()

def analyze_image(image_path, question):
    with open(image_path, "rb") as f:
        b64 = base64.b64encode(f.read()).decode("utf-8")
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": question},
                {"type": "image_url",
                 "image_url": {"url": f"data:image/jpeg;base64,{b64}"}},
            ],
        }],
    )
    return response.choices[0].message.content

print(analyze_image("product.jpg", "この製品の不良を箇条書きで指摘してください"))

マルチモーダルの実務応用

1. 文書理解（OCR + 構造化）：請求書、契約書、帳票類など、レイアウトを含む情報の抽出に活用されます。従来のOCR+ルールベース処理では苦手だった、フォーマット揺らぎや手書き混在にも対応できる点が大きな利点です。Claude 3.5 SonnetやGPT-4oはこの領域で実用レベルに達しています。

2. 製品画像分析・品質検査：製造業の検品や小売の商品タグ付けに利用されます。従来の専用モデルほど精度は出ない場合もありますが、対応クラスを柔軟に増減できる点がROIを出しやすい特徴です。

3. 動画要約・セキュリティ映像分析：Gemini 1.5のような動画対応モデルで、長時間映像の要点抽出や異常検知が可能です。会議録画の議題抽出、監視映像のイベント検知など用途が広がります。

4. 音声対話（GPT-4oのリアルタイム音声）：カスタマーサポートや会議アシスタントで応用が進んでいます。遅延が人間の対話に近く、従来のチェーン型音声システムとはUXが別次元です。

ビジネスへの示唆――マルチモーダルAIの導入判断

マルチモーダルAI導入の第一歩は「本当にテキストだけで解決できないか」の検証です。OCR前処理+テキストLLMで済むなら、コスト面でそちらが優位です。ただし、レイアウトや手書き、画像内の図表などが重要な情報である場合、マルチモーダルモデルへ直接入力する方が精度と実装シンプルさの両面で勝ります。

コスト構造の理解も重要です。画像はモデル内部でトークン化されるため、1枚で数百〜数千トークンに換算されます。高解像度画像を大量処理するとコストが急増するため、必要解像度の調整やバッチ処理の設計が実務運用の鍵となります。

データ準備の課題も軽視できません。マルチモーダルFine-tuningには画像とテキストのペアデータが必要で、社内データの整備・ラベリングコストが高くつく場合があります。最初はAPIモデルでPoCを行い、運用に乗った段階で自社データ特化への投資判断を行うのが現実的です。

まとめ――マルチモーダルは「特別な機能」から「標準装備」へ

マルチモーダル基盤モデルはLLMの次のフロンティアで、現実世界のほとんどの業務要件に対応します
アーキテクチャはコネクタ型とネイティブ統合型の2系統で、柔軟性と性能のトレードオフがあります
主要モデルはGPT-4o、Claude 3.5 Sonnet、Gemini 1.5で、用途に応じた使い分けが重要です
評価はMMMU・MMBenchなど複数指標で行い、視覚情報の活用度を測ります
文書理解・品質検査・動画分析・音声対話が代表的な高ROI応用です

DE-STKでは、マルチモーダルAIのユースケース診断、モデル選定、PoC設計、本番運用アーキテクチャ設計までを一貫してご支援します。データ基盤と統合した持続可能なAI活用を実現します。

よくある質問(FAQ)

Q. マルチモーダルLLMとは何ですか?

A. テキストだけでなく、画像・音声・動画など複数のモダリティ（情報形式）を統合的に理解・生成できる大規模基盤モデルです。GPT-4V、Gemini、Claude 3などが代表例で、画像の説明、文書のOCR、動画の要約などが可能です。

Q. マルチモーダルモデルの画像入力コストはどの程度ですか?

A. モデルにより異なりますが、1枚の画像は数百〜数千トークンに換算されます。高解像度画像ほどトークン数が増加するため、大量の画像処理ではコスト管理が重要です。解像度の適切な設定で費用を最適化できます。

Q. 自社業務でマルチモーダルAIを活用するにはどう始めればよいですか?

A. まず「テキストだけで解決できるか」を検討し、画像・音声等が必要な場合にマルチモーダルを選択します。文書理解（OCR+構造化）や製品画像分析がROIを出しやすい代表的なユースケースです。APIを使った小規模なPoCから始めることを推奨します。