OSSデータカタログの2026年時点の勢力図は、OpenMetadataとDataHubの2強、そして歴史あるAmundsenという構図です。本記事では、この3ツールの特徴・機能・コミュニティを徹底比較し、チームに合った選び方を解説します。UI重視ならOpenMetadata、エコシステム重視ならDataHub、シンプル重視ならAmundsenが推奨です。

OSSデータカタログを選ぶ理由

データカタログは「データ基盤の住所録」です。商用ツール(Atlan、Collibra等)は機能・サポートともに充実していますが、年間数百万円単位のコストが発生します。OSSで代替できるなら、コスト削減と社内カスタマイズ性の両方が手に入ります。

ただしOSSも「無料」ではなく、運用リソースが必要です。この記事で紹介する3ツールはいずれも本格運用ではKubernetesクラスタやDB・検索エンジンを伴います。自社で運用できるか見極めたうえで選定してください。

OpenMetadataの特徴

OpenMetadataは2021年ごろから急成長しているOSSで、Uber出身のチームが主導しています。特徴は「統一メタデータモデル」の設計思想で、テーブル、ダッシュボード、パイプライン、MLモデル、メッセージストリームといった異種リソースを単一のスキーマで扱える点です。

UIはモダンで分かりやすく、データプロファイリング、データ品質管理、タグ分類、ビジネスオーナーシップなどを一画面で管理できます。以下はOpenMetadataでSnowflakeをインジェストする設定例です。

source:
  type: snowflake
  serviceName: snowflake_prod
  serviceConnection:
    config:
      type: Snowflake
      username: ${SF_USER}
      password: ${SF_PASSWORD}
      account: xyz12345
  sourceConfig:
    config:
      includeTables: true
      includeViews: true

DataHubの特徴

DataHubはLinkedIn発のOSSで、2020年に公開されて以来、最も広く採用されているカタログの1つです。マイクロサービス構成(GMS、Elasticsearch、Kafka、フロントエンド)により、メタデータの取り込みと検索がスケールする設計になっています。

強みは50以上のインジェストソースと、GraphQL APIによる柔軟な連携です。dbt、Airflow、Snowflake、BigQueryといったモダンデータスタックのツール群と高い親和性を持ち、商用版のAcryl Cloudへのアップグレードパスも確立されています。詳細はDataHub入門記事(B-21)もご覧ください。

Amundsenの特徴

AmundsenはLyftが2019年に公開したOSSで、「社内のデータディスカバリを高速化する」ことに焦点を絞ったシンプルな設計です。検索UIはGoogleライクで直感的、学習コストが低いのが持ち味です。

ただし、DataHubやOpenMetadataと比べると開発の活発度は低めで、リネージ追跡やガバナンス機能は限定的です。シンプルさを求めるチームや、PoCとして短期間で立ち上げたい場合には依然として有効な選択肢です。

3ツール徹底比較

主要な観点で3ツールを並べた表です。数字で語れる部分と、実際に触らないと分からない部分があるため、導入前に必ずPoCで確認してください。

観点OpenMetadataDataHubAmundsen
開発元Collate(Uber出身)LinkedIn / Acryl DataLyft
初公開2021年2020年2019年
アーキテクチャモノリス + サイドカーマイクロサービスモノリス系
検索ElasticsearchElasticsearchElasticsearch / Atlas
リネージカラム単位カラム単位テーブル単位
品質統合ネイティブ機能ありdbt / GE / Assertions限定的
APIREST / Python SDKGraphQL / RESTREST
dbt連携ネイティブネイティブプラグイン
UIモダンで直感的機能豊富だが学習コストありシンプルで高速
コミュニティ成長中最大級減速気味
開発活性度非常に高い非常に高い低〜中

次にポジショニングマップで視覚的に整理します。

【OSSデータカタログ ポジショニングマップ】

  High features
     ^
     |   [DataHub]
     |
     |        [OpenMetadata]
     |
     |
     |                         [Amundsen]
     +-------------------------------------> Ease of use
   Low features                              High

※ DataHubは機能最多だが学習コスト高め。
※ OpenMetadataは機能とUIのバランス型。
※ Amundsenはシンプル・導入容易だが機能は限定的。

選定判断

チーム特性から推奨ツールを示した表です。1つの基準ではなく、複数の観点から判断してください。

チーム特性推奨ツール理由
モダンデータスタック採用DataHubdbt / Airflow / BI連携が最も成熟
UIの使いやすさ重視OpenMetadata直感的で非エンジニアも使える
データ品質管理を統合したいOpenMetadataネイティブに品質機能を持つ
シンプルに始めたいAmundsen学習コストが最も低い
多様な資産を管理(ML / ストリーム含む)OpenMetadata / DataHub統一メタデータモデルで扱える
将来商用版に移行したいDataHubAcryl Cloudへの移行パスあり
Kubernetes運用が厳しいAmundsen構成要素が少ない

まとめ

2026年時点の2強はDataHubとOpenMetadataです。DataHubはエコシステムの広さ、OpenMetadataはUIの使いやすさがそれぞれの強みです。Amundsenはシンプル派に依然価値があります。最初の一歩は、自社のDWHとBIに最も自然に繋がるツールをPoCで触ってみることから始めてください。

よくある質問

2026年時点でおすすめのOSSデータカタログは?

機能の充実度と開発活性度ではDataHubとOpenMetadataが2強です。DataHubはエコシステムの広さ、OpenMetadataはUIの使いやすさが強みです。どちらも活発に開発されているため、自社の優先度で選んで差し支えありません。

Amundsenは選択肢として有効ですか?

シンプルなデータディスカバリが目的なら有効ですが、開発の活性度はDataHub/OpenMetadataに劣ります。新規導入では他2つを優先的に検討すべきです。既に社内にAmundsenがあり、機能要件が満たせているなら継続利用も合理的です。

商用データカタログ(Atlan等)とOSSの使い分けは?

運用リソースがあるならOSSでコスト削減可能です。運用負荷を最小化したい場合や、高度なガバナンス機能が必要な場合は商用が適しています。長期コストと初期導入負荷のバランスから判断しましょう。