データカタログを2回作り直した話――メタデータ管理が定着しない本質的な原因

データカタログを1年以内に作り直した経験がある組織は少なくありません。そして2回目の作り直しでも、同じように半年後には誰も更新しなくなる――これがAnti-patternシリーズで取り上げたい現象です。データカタログが定着しない本質的な原因は、ツールの機能不足でもプロジェクト管理の甘さでもなく「メタデータを更新する人へのインセンティブが設計されていない」という、たった一点に集約されます。高機能なカタログ製品を導入し、初期登録は頑張った、でも半年後には誰も更新しなくなり、最新のテーブルがカタログに載っていない――この光景は、ツールを替えても運用ルールを厳格化しても、インセンティブ構造に手を入れない限り必ず再発します。

データカタログが「作っては放置」される現実

各種のデータマネジメント調査では、データカタログの導入企業は増加している一方で、導入後12か月以内に「実質的に使われていない」と回答する比率が半数前後に達します。DE-STKの支援現場でも、Collibra、Alation、DataHub、OpenMetadataといった主要製品のいずれにおいても、この傾向は大きく変わりません。重要なのは、これがツール間の勝ち負けではなく、導入後の運用設計に共通した落とし穴があることを示している点です。

「導入」はゴールではなく「継続的な運用」こそが価値を生むと、あらゆるベンダー資料に書いてあります。しかし現場では、導入プロジェクトの予算・人員・期限が「稼働開始日」までしか設定されておらず、運用フェーズに入った瞬間に専任担当が解散するケースが大半です。この時点で、メタデータの鮮度は時間の問題で劣化していきます。

フェーズ	活動内容	メタデータの鮮度	利用者の満足度
導入期(0〜3か月)	主要テーブルの登録、説明文の初期入力	ほぼ最新	高(期待先行)
活用期(3〜6か月)	ユーザー問い合わせ、検索利用が増加	一部が陳腐化開始	中(不満顕在化)
停滞期(6〜12か月)	新規テーブルの未登録が増え、問い合わせが減る	半数が古い情報	低(信頼喪失)
形骸化期(12か月以降)	誰も開かないが契約だけ継続	3割以上が不正確	ほぼゼロ

メタデータ管理が定着しない3つの構造的原因

では、なぜこのライフサイクルが繰り返されるのでしょうか。原因を3つの構造的要因に整理します。いずれも個人の怠慢ではなく、組織設計の問題です。

「作る人」と「使う人」のインセンティブの不一致

メタデータを登録・更新するのは主にデータエンジニアです。一方でその恩恵を受けるのはアナリストやビジネスユーザーであり、両者はしばしば別組織に属します。エンジニアにとってメタデータの記入は「自分の成果にならない余計な作業」であり、評価指標にも組み込まれていないことが大半です。アナリスト側も「エンジニアが書いてくれるだろう」と期待するだけで、自ら書く動機はありません。結果として「誰も書かないが、誰もが書いてほしいと思っている」奇妙な均衡が生まれ、メタデータは更新されないまま古びていきます。

手動更新に依存する設計

テーブルが追加されるたび、カラムが変更されるたびに、人間が手動でカタログを更新する前提の運用は、絶対に持続しません。開発スピードが速いチームほど、手動更新との整合性は保てなくなります。dbtやETLツール、DWHから自動的にスキーマとリネージを収集する仕組みがないまま、「運用ルールで徹底させる」という方針だけで乗り切ろうとすると、数か月でルールは空文化します。運用ルールの厳格化はしばしば「定着のための処方箋」として語られますが、自動化の穴埋めには決してなりません。

カタログの「完璧主義」

もう一つの落とし穴は、最初から全テーブル・全カラムに説明文を書こうとすることです。対象が1,000テーブルを超えると、初期登録だけで数か月かかります。そして「全部入力しないとリリースできない」というプロジェクト計画のもとでは、納期プレッシャーからプレースホルダー的な説明文が大量生産されます。完璧を目指した結果、実質情報ゼロの説明文が並ぶカタログが出来上がり、利用者の信頼も同時にゼロになります。100%を目指した結果が0%になる、典型的なパターンです。

【メタデータ鮮度の劣化プロセス】

Month 0  [導入完了] --> 登録率100% / 正確性100%
              |
              v
Month 3  [新テーブル追加] --> 登録率95% / 正確性95%
              |
              v
Month 6  [スキーマ変更多発] --> 登録率80% / 正確性75%
              |
              v
Month 9  [問い合わせ不一致] --> 登録率65% / 正確性60%
              |
              v
Month 12 [信頼喪失]        --> 登録率50% / 正確性45%
              |
              v
Month 18 [実質形骸化]      --> 登録率40% / 正確性30%

※ 数値は複数プロジェクトの平均値。自動化なしの場合の典型例。

2回作り直しても失敗する理由

ここからが本題です。1回目の失敗を経験した組織は、多くの場合「カタログツールの選定が悪かった」と結論付けます。そして2回目は別のツールに乗り換えます。それでも半年後には同じ症状が再発します。2回目の失敗後、今度は「運用ルールの徹底が足りなかった」と認識され、メタデータ更新を義務化し、スキーマ変更時の承認フローに組み込むといった施策が取られます。しかしここでも、本質的な原因であるインセンティブ設計には誰も手を付けません。結果、運用ルールは3か月ほど守られた後、徐々に形骸化します。

つまり、1回目はツールの問題にすり替え、2回目はプロセスの問題にすり替え、どちらも本質に触れずに再発する、というのが典型的なパターンです。3回目にしてようやくインセンティブ設計にメスを入れるか、あるいは諦めてカタログ構想自体を放棄するか、分岐点が訪れます。

観点	1回目の失敗	2回目の失敗	成功する3回目
原因認識	ツール機能が不十分	運用プロセスが甘い	インセンティブ設計が不在
主な施策	別製品への乗り換え	更新義務化、承認フロー導入	自動化＋段階整備＋KPI化
手動入力への依存度	高い	さらに高い	最小化
対象範囲	全テーブル一括	全テーブル＋厳格運用	TOP20から段階的
成果測定	導入完了で終了	ルール遵守率のみ	利用率・満足度・カバレッジ
12か月後の状態	形骸化	形骸化（再発）	定着（継続改善）

解決策――「メタデータのインセンティブ設計」

構造的問題への処方箋は、ツール選定の前にインセンティブ設計を行うことです。以下の4つを順番に組み込みます。

自動化ファースト――手動入力を最小限にする

スキーマ情報、カラム型、リネージ（依存関係）、クエリ統計、アクセス頻度といった機械的に取得可能なメタデータは、例外なく自動収集の対象にします。人間が書くべきなのは「このテーブルがなぜ存在するか」「業務上の意味は何か」といったビジネスコンテキストだけです。dbtのdescriptionをカタログに自動反映する連携設定、DWHのinformation_schemaを定期収集する仕組み、Airflow DAGからのリネージ抽出――これらは一度設計すれば継続的に機能します。

カタログを日常業務に組み込む

カタログの更新を「別作業」として位置付けている限り、定着しません。データ検索のエントリーポイントをカタログに集約し、アナリストがSQLを書く前に必ずカタログ検索を経由するワークフローを設計します。dbtのモデル定義がカタログに自動反映されるようにすれば、エンジニアは新しい作業を増やさずに、普段の開発行為そのものがメタデータ更新になります。つまり「登録する作業」自体を消し去るのが最も強力な設計です。

段階的に充実させる

全テーブルを一気に整備しようとすると、必ず失敗します。最初は利用頻度の高い上位20テーブル（TOP20）のビジネスコンテキストだけを記入し、それ以外は自動収集情報のみで公開します。利用率の高いテーブルから優先して充実させるというシンプルな原則に従うだけで、投入工数に対する利用者の満足度は格段に上がります。カバレッジ100%は目標にしてはいけません。目標は「よく使われるテーブルほど情報が豊富であること」です。

メタデータの品質を可視化する

最後に、カタログ自身のメタデータ品質をダッシュボード化します。TOP20テーブルの説明文記入率、リネージの網羅率、利用されているテーブルの説明文鮮度（最終更新日）といった指標を、データチームのKPIに組み込みます。ここでのポイントは「全テーブルのカバレッジ率」ではなく「利用頻度の高いテーブルに絞った品質指標」にすることです。誰も使わないテーブルの説明文がいくら埋まっても、ビジネス価値は生まれません。

【インセンティブ設計のフレームワーク】

         [データエンジニア]                [アナリスト/業務担当]
               |                                  |
               v                                  v
  (1) 作業が増えない                  (4) 検索すれば必ず見つかる
      dbt/IaC が自動反映                  カタログ経由で日常利用
               |                                  |
               +-----------+          +-----------+
                           |          |
                           v          v
                    [カタログ(自動収集層)]
                           |
                           v
                (2) TOP20 に人手でコンテキスト追記
                           |
                           v
                (3) 利用率 × 鮮度 を KPI 化
                           |
                           v
             [改善ループ：使われるものを優先的に磨く]

※ 「登録作業」を日常業務に溶かし込むのが鍵。新規作業は作らない。

定着に成功した企業の事例

ここで、DE-STKが支援した（あるいは観測した）2つの事例を匿名化して紹介します。

事例1は国内のSaaS企業です。過去に2つのカタログ製品で定着に失敗した経験を踏まえ、3回目の構築では「dbtのdescriptionをカタログのSingle Source of Truthにする」という方針を採用しました。エンジニアはdbtのYAMLを更新するだけでよく、カタログへの二重入力は発生しません。初期はTOP30テーブルのみに絞ってビジネスコンテキストを記入し、残りは自動収集のメタデータで運用開始。半年後にはカタログ経由の検索が日次1,000件を超え、自動化率は80%に達しました。ポイントは「カタログを別システムとして扱わず、既存のdbt運用の延長線上に位置付けた」ことです。

事例2は国内の製造業です。データソースは基幹系・MES・IoTなど多岐にわたり、テーブル総数は2,000を超える規模でした。以前のプロジェクトでは全テーブル一括登録を試みて半年で挫折しています。再構築では利用頻度分析を先に実施し、上位20テーブルが全クエリの80%を占めることを確認。この20テーブルだけを対象に、業務担当者へのヒアリングを重ねながらコンテキストを記入しました。1年後、TOP20のカバレッジは90%に達し、そこから徐々に対象を拡大するフェーズに移行しています。ここでの学びは「対象を絞ることで、質の高い記述に時間を割けるようになる」という点でした。

まとめ――データカタログは「辞書」ではなく「インフラ」

本稿の核心を要点として整理します。

データカタログ定着の失敗は、ツール選定やプロセスの問題ではなくインセンティブ設計の不在が原因である
機械的に取れるメタデータは自動収集とし、人間が書くのはビジネスコンテキストだけにする
全テーブル一括登録を狙わず、利用頻度TOP20から段階的に整備する
dbtやDWHなど既存の運用と一体化させ、新しい作業を増やさない
KPIは「カバレッジ率」ではなく「利用されるテーブルの情報品質」に置く

データカタログは「完成したら終わる辞書」ではなく、継続的に手入れされる「データ基盤のインフラ」です。DE-STKでは、カタログツールの選定からインセンティブ設計、dbt連携による自動化、段階的展開ロードマップまで一気通貫で支援しています。1回目・2回目の失敗で学んだ反省を3回目で活かしたい組織の方は、現状診断からお気軽にご相談ください。

よくある質問

データカタログが定着しない最大の原因は何ですか?

メタデータを登録・更新する人（主にデータエンジニア）と恩恵を受ける人（アナリストやビジネスユーザー）のインセンティブが一致していないことが最大の原因です。ツール機能やプロセス厳格化ではこの構造は解消されず、自動化と日常業務への統合によって「登録作業そのものを消す」アプローチが必要になります。

データカタログの導入で最初にやるべきことは何ですか?

全テーブルを一度に登録しようとせず、利用頻度の高い上位20テーブルのビジネスコンテキストだけを整備することから始めてください。並行してスキーマ情報やリネージは自動収集を設定し、人間の手動入力は最小限にとどめます。この順序を守ると、初期の工数が大幅に減り、利用者の満足度が早期に上がります。

データカタログのツール選定で重要なポイントは何ですか?

機能の豊富さよりも、既存のデータ基盤（dbt、DWH、Airflowなど）との連携による自動メタデータ収集の能力が最重要です。手動入力に依存するカタログは必ず陳腐化するため、SDKやAPI、CLI、dbtネイティブ連携などの「自動化の足回り」を評価軸の中心に据えることをお勧めします。