『Temporal Data Meets LLM』が示した「LLMによる時系列データの理解」というパラダイムは、その後、時系列データをLLMの潜在空間にどうマッピングするか(トークン化戦略)という根源的なアーキテクチャの進化へと繋がりました。数字の羅列をLLMにどう読ませるかについて、Digit-level(数値ベース)、Patch-level(パッチベース)、Bin-level(階級ベース)といった多様なアプローチが研究されています。
時系列の「言語化」と再プログラミング:Time-LLM
2024年の国際会議ICLRで採択され、高い評価を受けたTime-LLMは、基盤となるLLM(LLaMA-7BやGPT-2、BERTなど)のパラメータを一切変更することなく、一般化された時系列予測を行うフレームワークを提案しました。
従来の時系列LLMは、テキストベースのプロンプトに数値をそのまま入力していましたが、Time-LLMは時系列データを「パッチ(Patch-level)」単位に分割し、これをLLMが自然に処理できる「テキストプロトタイプ表現」に変換する「入力の再プログラミング(Reprogramming)」を行います。
さらに、ドメインの専門知識やタスクの指示を含む「Prompt-as-Prefix(接頭辞としてのプロンプト)」をコンテキストとして付与することで、LLMの推論をガイドします。
このアプローチにより、LLMが持つテキストや音声、視覚にまたがるマルチモーダルな知識を活用し、ゼロショットおよびフューショットのシナリオにおいて、従来のSOTA(最高精度)時系列モデルを凌駕する性能を発揮することが確認されました。
ゼロショット基礎モデルの登場:Chronos
時系列予測をさらに汎用化する動きとして、Amazon Scienceから発表されたChronosが挙げられます。
Chronosは、時系列データを「言語のトークン」として扱い、多様な予測タスクをゼロショット(=事前のタスク特化学習なし)で実行できる時系列の基礎モデルです。 Temporal Data Meets LLMでは株価変動率を固定のビンに分類していましたが、Chronosも同様に時系列データをビンレベル(Bin-level)でトークン化し、言語モデルの語彙とみなして自己回帰的に予測を行います。
Chronosの強みは、ガウス過程やKernelSynthといったデータ拡張手法を利用して生成した膨大な「合成データ」と実データを組み合わせて訓練されている点にあり、これにより未見の金融データに対しても高い汎用性を持つ確率的予測(Probabilistic Forecasting)を可能にしました。
さらに進化したChronos-2では、グループアテンションメカニズムを採用することで、単変量だけでなく多変量時系列や共変量(Covariates)を含む複雑な構造のデータ処理も可能になっており、先行研究の課題であった「マクロ経済データなどの多様な変数の統合」への一つの解答となっています。
スケール不変パターンと動的波形解析:LLM4FTS
2025年に発表されたLLM4FTS(Enhancing Large Language Models for Financial Time Series Prediction)は、金融時系列データに特有の「スケール不変のパターン(Scale-Invariant Patterns)」と「非定常的なノイズ」に特化して対処するために開発されたフレームワークです。
従来のTransformerベースの手法やTime-LLMのようなパッチ単位の分割は、パッチの長さが固定(Fixed-length patch)であるため、市場の動的なサイクル変化を柔軟に捉えきれないという弱点がありました。
LLM4FTSは、DTW(動的時間伸縮法)を用いたK-means++クラスタリングによって、時系列内のスケール不変パターンをオフラインで認識し、そのパターンの完全性を保ちながら動的にパッチを分割する「Learnable Patch Segmentation(学習可能なパッチ分割)」を導入しました。
さらに、「動的ウェーブレット畳み込み(Dynamic Wavelet Convolution)」モジュールを統合することで、時間とともに変化する周波数特性(Time-frequency features)を抽出し、株価収益率の予測において最先端のパフォーマンスを達成しています。
強化学習による説明可能なテクニカル分析:VTA (Reasoning on Time-Series)
『Temporal Data Meets LLM』における「解釈性の追求」を数学的な最適化のレベルまで推し進めたのが、2026年のICLRに採択されたVerbal Technical Analysis (VTA)フレームワークです。
これまでの時系列LLM(Time-LLMやCALFなど)は、時系列データをLLMの潜在空間(Embedding space)にマッピングする過程で、LLMが本来持つ自然言語の推論能力(Verbal reasoning)が失われやすいというジレンマがありました。
また、株価には単純移動平均線(SMA)、指数平滑移動平均線(EMA)、モメンタム、支持線・抵抗線といった、金融実務家が解釈可能な特有のテクニカルなシグナルが存在します。
VTAは、言語による「推論(Verbal Reasoning)」と、モデル内部の「潜在的思考(Latent Thinking)」を統合するデュアルトラックのアーキテクチャを採用しています。まず、生の時間系列データからテキストアノテーターを通じてこれらのテクニカル指標をテキスト化し、LLMに入力します。ここで特筆すべきは、Time-GRPO(Time-Series Group Relative Policy Optimization)と呼ばれる独自の強化学習パイプラインです。
この手法では、LLMが生成した推論プロセスに対して、最終的な時系列予測の平均二乗誤差(MSE)の逆数を「報酬」として与え、最適化を行います。つまり、「予測精度が高まるような論理的な推論プロセス」をモデルに学習させるのです。
最終的に、この言語による推論出力を用いて、潜在的な時系列バックボーンモデルを条件付け(Conditioning)することで予測を出力します。実験の結果、VTAは米国、中国、欧州の市場データにおいて最高精度を達成しただけでなく、生成された推論の軌跡は業界専門家が用いる評価基準に照らしても極めて妥当であることが確認されました。さらに、このモデルの予測に基づいて構築されたマーコビッツのポートフォリオは、実際の投資指標においても優れたパフォーマンスを示しました。
時系列データそのもののモデリング技術が進化する一方で、テキスト情報(ニュース、決算報告書、ソーシャルメディア)を深く理解して金融市場のセンチメントや予測を抽出するドメイン特化型金融LLM(FinLLMs)の開発も急速に進んでいます。
民主化された金融LLM:FinGPTとFinGPT-Forecaster
金融領域のLLMとして有名なBloombergGPTは、金融データと一般データを混合してスクラッチから訓練され、約300万ドルのコストと53日間の学習時間を要しました。
これに対し、オープンソースのアプローチで対抗し、金融データへのアクセスをインターネット規模で民主化しようとしているのがFinGPTです。 FinGPTはデータ中心(Data-centric)のアプローチを採用し、オンライン上の金融ニュースや株価データを自動でキュレーションするパイプラインを構築しています。
学習面では、一からモデルを訓練するのではなく、LLaMA-2などの既存の強力なオープンソースモデルに対して、LoRA(Low-Rank Adaptation)などの軽量なファインチューニング手法を用います。
これにより、パラメータの更新コストを1回あたり300ドル未満に抑え、市場のダイナミクスに合わせた高頻度(月次・週次)なモデル更新を可能にしています。
さらに、FinGPTのアーキテクチャにおいてBloombergGPTに欠けていた重要な要素が、「人間からのフィードバックを用いた強化学習(RLHF)」の導入です。
RLHFにより、ユーザーのリスク許容度や投資スタイルといった個人の好みにモデルを適応させることが可能になります。 この成果としてリリースされたFinGPT-Forecasterは、実用的なAIロボアドバイザーのマイルストーンとなりました。
ユーザーがティッカーシンボル(例:AAPL)、予測開始日、過去のニュース取得期間を入力すると、モデルは企業の最新の基本財務指標(利益率、バリュエーション、流動性など)とニュースの見出しを統合分析します。出力は、「ポジティブな進展(Positive developments)」「潜在的な懸念事項(Potential concerns)」、そして「来週の株価変動予測とその詳細な分析」という構造化されたフォーマットで提示され、Temporal Data Meets LLMのコンセプトをより洗練された実用アプリケーションへと昇華させています。
検索拡張生成(RAG)とベンチマーク:AlphaFinとStock-Chain
金融テキスト分析におけるもう一つの重要な進展は、モデルの幻覚(ハルシネーション)の抑制と、推論能力の向上です。2024年に発表されたAlphaFinは、伝統的な金融研究データ(FPBやFinQAなど)、リアルタイムの金融ニュース、財務レポート、そして人間が記述したChain-of-Thoughts(CoT)データを統合した包括的なデータセットであり、同時にStock-Chainと呼ばれるフレームワークを提案しています。 Stock-Chainフレームワークは、金融分析タスクを2つのステージに分割して処理します。
- Stage-1(株価トレンド予測): AlphaFinの財務レポートデータとCoTデータを用いてLoRAでファインチューニングされたモデル(StockGPT-Stage1)が、企業と知識ドキュメントのペアから株価のトレンド(上昇・下落)を予測します。
- Stage-2(金融Q&AとRAG): 予測だけでなく、ユーザーからの複雑な金融の質問に答えるため、検索拡張生成(Retrieval-Augmented Generation: RAG)技術を統合します。ベクトルデータベースからリアルタイムかつ信頼性の高い情報を取得することで、LLM特有のハルシネーション(情報の捏造)を防ぎ、最新の市場動向に基づいた根拠のある回答を生成します。
これらの技術の進化に伴い、金融ドメインにおけるLLMの真のパフォーマンスを公平に評価するための厳格なベンチマークも多数提案されています。
| ベンチマーク名 | 主な評価対象・タスク | 特徴 |
| AlphaFin | 株価トレンド予測、金融Q&A | RAGとCoTを組み合わせたStock-Chainフレームワークの評価に特化。英語・中国語に対応。 |
| FinanceBench | 証券取引委員会(SEC)提出書類に基づく文書Q&A | 10-Kなどの長文レポートからの収益の検索、マージン計算、事実抽出など、実務的な精度を測定。 |
| FinBen | 包括的な金融タスク | センチメント分析から数値推論、テキスト要約まで、金融におけるLLMの能力をホリスティックに評価。 |
| DocMath-Eval | 長文ドキュメントの数値推論 | 複雑な表や文書にまたがる金融データの解釈と高度な計算能力をテスト。 |
| R-Judge | エージェントの安全性とリスク認識 | 取引の実行やツール使用におけるリスク感受性、矛盾の検出など、安全なデプロイに向けた評価。 |
これらのベンチマークは、モデルが単に金融用語を「知っている」かではなく、実務における複雑な意思決定や計算を正確に実行できるかという点にシフトしていることを示しています。