OSSデータカタログの2026年時点の勢力図は、OpenMetadataとDataHubの2強、そして歴史あるAmundsenという構図です。本記事では、この3ツールの特徴・機能・コミュニティを徹底比較し、チームに合った選び方を解説します。UI重視ならOpenMetadata、エコシステム重視ならDataHub、シンプル重視ならAmundsenが推奨です。
OSSデータカタログを選ぶ理由
データカタログは「データ基盤の住所録」です。商用ツール(Atlan、Collibra等)は機能・サポートともに充実していますが、年間数百万円単位のコストが発生します。OSSで代替できるなら、コスト削減と社内カスタマイズ性の両方が手に入ります。
ただしOSSも「無料」ではなく、運用リソースが必要です。この記事で紹介する3ツールはいずれも本格運用ではKubernetesクラスタやDB・検索エンジンを伴います。自社で運用できるか見極めたうえで選定してください。
OpenMetadataの特徴
OpenMetadataは2021年ごろから急成長しているOSSで、Uber出身のチームが主導しています。特徴は「統一メタデータモデル」の設計思想で、テーブル、ダッシュボード、パイプライン、MLモデル、メッセージストリームといった異種リソースを単一のスキーマで扱える点です。
UIはモダンで分かりやすく、データプロファイリング、データ品質管理、タグ分類、ビジネスオーナーシップなどを一画面で管理できます。以下はOpenMetadataでSnowflakeをインジェストする設定例です。
source:
type: snowflake
serviceName: snowflake_prod
serviceConnection:
config:
type: Snowflake
username: ${SF_USER}
password: ${SF_PASSWORD}
account: xyz12345
sourceConfig:
config:
includeTables: true
includeViews: true
DataHubの特徴
DataHubはLinkedIn発のOSSで、2020年に公開されて以来、最も広く採用されているカタログの1つです。マイクロサービス構成(GMS、Elasticsearch、Kafka、フロントエンド)により、メタデータの取り込みと検索がスケールする設計になっています。
強みは50以上のインジェストソースと、GraphQL APIによる柔軟な連携です。dbt、Airflow、Snowflake、BigQueryといったモダンデータスタックのツール群と高い親和性を持ち、商用版のAcryl Cloudへのアップグレードパスも確立されています。詳細はDataHub入門記事(B-21)もご覧ください。
Amundsenの特徴
AmundsenはLyftが2019年に公開したOSSで、「社内のデータディスカバリを高速化する」ことに焦点を絞ったシンプルな設計です。検索UIはGoogleライクで直感的、学習コストが低いのが持ち味です。
ただし、DataHubやOpenMetadataと比べると開発の活発度は低めで、リネージ追跡やガバナンス機能は限定的です。シンプルさを求めるチームや、PoCとして短期間で立ち上げたい場合には依然として有効な選択肢です。
3ツール徹底比較
主要な観点で3ツールを並べた表です。数字で語れる部分と、実際に触らないと分からない部分があるため、導入前に必ずPoCで確認してください。
| 観点 | OpenMetadata | DataHub | Amundsen |
|---|---|---|---|
| 開発元 | Collate(Uber出身) | LinkedIn / Acryl Data | Lyft |
| 初公開 | 2021年 | 2020年 | 2019年 |
| アーキテクチャ | モノリス + サイドカー | マイクロサービス | モノリス系 |
| 検索 | Elasticsearch | Elasticsearch | Elasticsearch / Atlas |
| リネージ | カラム単位 | カラム単位 | テーブル単位 |
| 品質統合 | ネイティブ機能あり | dbt / GE / Assertions | 限定的 |
| API | REST / Python SDK | GraphQL / REST | REST |
| dbt連携 | ネイティブ | ネイティブ | プラグイン |
| UI | モダンで直感的 | 機能豊富だが学習コストあり | シンプルで高速 |
| コミュニティ | 成長中 | 最大級 | 減速気味 |
| 開発活性度 | 非常に高い | 非常に高い | 低〜中 |
次にポジショニングマップで視覚的に整理します。
【OSSデータカタログ ポジショニングマップ】
High features
^
| [DataHub]
|
| [OpenMetadata]
|
|
| [Amundsen]
+-------------------------------------> Ease of use
Low features High
※ DataHubは機能最多だが学習コスト高め。
※ OpenMetadataは機能とUIのバランス型。
※ Amundsenはシンプル・導入容易だが機能は限定的。
選定判断
チーム特性から推奨ツールを示した表です。1つの基準ではなく、複数の観点から判断してください。
| チーム特性 | 推奨ツール | 理由 |
|---|---|---|
| モダンデータスタック採用 | DataHub | dbt / Airflow / BI連携が最も成熟 |
| UIの使いやすさ重視 | OpenMetadata | 直感的で非エンジニアも使える |
| データ品質管理を統合したい | OpenMetadata | ネイティブに品質機能を持つ |
| シンプルに始めたい | Amundsen | 学習コストが最も低い |
| 多様な資産を管理(ML / ストリーム含む) | OpenMetadata / DataHub | 統一メタデータモデルで扱える |
| 将来商用版に移行したい | DataHub | Acryl Cloudへの移行パスあり |
| Kubernetes運用が厳しい | Amundsen | 構成要素が少ない |
まとめ
2026年時点の2強はDataHubとOpenMetadataです。DataHubはエコシステムの広さ、OpenMetadataはUIの使いやすさがそれぞれの強みです。Amundsenはシンプル派に依然価値があります。最初の一歩は、自社のDWHとBIに最も自然に繋がるツールをPoCで触ってみることから始めてください。
よくある質問
2026年時点でおすすめのOSSデータカタログは?
機能の充実度と開発活性度ではDataHubとOpenMetadataが2強です。DataHubはエコシステムの広さ、OpenMetadataはUIの使いやすさが強みです。どちらも活発に開発されているため、自社の優先度で選んで差し支えありません。
Amundsenは選択肢として有効ですか?
シンプルなデータディスカバリが目的なら有効ですが、開発の活性度はDataHub/OpenMetadataに劣ります。新規導入では他2つを優先的に検討すべきです。既に社内にAmundsenがあり、機能要件が満たせているなら継続利用も合理的です。
商用データカタログ(Atlan等)とOSSの使い分けは?
運用リソースがあるならOSSでコスト削減可能です。運用負荷を最小化したい場合や、高度なガバナンス機能が必要な場合は商用が適しています。長期コストと初期導入負荷のバランスから判断しましょう。