データファブリック(Data Fabric)とは、メタデータとAI/MLを活用して、クラウド・オンプレミス・SaaSに散在するデータを仮想的に統合し、一貫した検索・アクセス・ガバナンスを実現する技術アーキテクチャです。Gartnerが2019年前後から提唱した概念で、同じく分散データの課題に答えるデータメッシュが「組織設計」のアプローチであるのに対し、データファブリックは「技術による統合」のアプローチです。本記事では定義、構成要素、データメッシュとの本質的な違い、実装パターン、導入判断の基準、そして両者の併用という第三の視点までを解説します。
データファブリックとは何か――「織物」のようにデータをつなぐ
データファブリックの直訳は「データの織物」です。複数のデータソースを、メタデータという縦糸と統合レイヤーという横糸で編み上げ、利用者から見て単一のデータ空間のように振る舞わせる――この比喩が名前の由来です。Gartnerが「Top 10 Data and Analytics Technology Trends」で繰り返し取り上げたことで広く認知されました。
核心は「メタデータ駆動のインテリジェントなデータ管理層」です。データそのものを1箇所に集めるのではなく、どこに何のデータがあるか、誰が使っているか、どう変換されたかをメタデータで把握し、AI/MLでその知見を自動化する――この発想がデータファブリックの中心にあります。結果として、物理的にはマルチクラウド・マルチシステムに分散したままのデータを、論理的には統一された窓口からアクセスできるようになります。データレイクやDWHを置き換えるのではなく、その上位に被さる「統合レイヤー」として機能する点が重要です。
データファブリックの構成要素
データファブリックは単一の製品ではなく、複数のコンポーネントで構成される技術スタックです。一般的に次の5要素が必須とされます。
- メタデータ管理・ナレッジグラフ:アクティブメタデータ(利用状況や依存関係も含む動的なメタデータ)をナレッジグラフ化し、データ資産間の関係を表現します。データファブリックの心臓部であり、ここが貧弱だと他のすべてが機能しません。
- データカタログ・ディスカバリ:収集したメタデータを基に、利用者が「使いたいデータ」を検索・発見できる窓口を提供します。詳細はA-08 データカタログで解説しています。
- データ統合・仮想化レイヤー:物理的にコピーせずに複数ソースを仮想的に結合するデータ仮想化、または必要に応じてETL/ELTを実行する統合エンジンを提供します。
- アクセス制御・ガバナンス:行・列・マスキングレベルのアクセス制御を一元管理し、個人情報保護規制にも対応します。ポリシー・アズ・コードの発想が組み込まれているのが特徴です。
- AI/MLによるデータ管理の自動化:メタデータからパターンを学習して、タグ付け、品質異常検知、類似データの推薦などを自動実行します。この「インテリジェンス」がデータファブリックを従来のデータカタログと区別する最大のポイントです。
【データファブリックの構成要素の関係】
[利用者(BI / ML / アプリ)]
|
v
+--------------+--------------+
| [AI/ML自動化エンジン] |
| タグ付け・品質検知・推薦 |
+--------------+--------------+
^
|
+------------+ | +------------+
| データ | | | ガバナンス |
| カタログ +-------+--------+ ポリシー |
+------+-----+ ナレッジグラフ +------+-----+
| (アクティブMD) |
v v
[データ統合・仮想化レイヤー]
|
v
+------+------+------+------+
| | |
[オンプレDWH] [クラウドDWH] [SaaSデータ]
データファブリック vs データメッシュ――本質的な違い
この2つは名前が似ているせいでしばしば混同されますが、解こうとしている問題も、アプローチの方向も異なります。一言で整理すると「データファブリック=How(技術でつなぐ)、データメッシュ=Who(組織で分ける)」です。
| 観点 | データファブリック | データメッシュ |
|---|---|---|
| 提唱者/出典 | Gartner(2019年前後) | Zhamak Dehghani(ThoughtWorks、2019年) |
| アプローチ | 技術主導(Technology-centric) | 組織主導(Organization-centric) |
| 中心概念 | メタデータ駆動の統合 | ドメインオーナーシップの分散 |
| メタデータの位置づけ | アーキテクチャの中心(ナレッジグラフ) | 原則4(連邦型ガバナンス)の一部 |
| 自動化の度合い | AI/MLで高度に自動化 | セルフサービス基盤で間接的に自動化 |
| 組織変革の必要性 | 小〜中(既存組織に被せられる) | 大(チーム編成と責任分担の再設計) |
| 適する組織特性 | マルチクラウド、レガシー併存 | 事業ドメインが明確に分かれた大規模組織 |
| 併用可能性 | データメッシュと併用可能 | データファブリックと併用可能 |
もう少し直感的に、両者のスタンスを概念図で並べてみましょう。
【データファブリック vs データメッシュ 概念対比】
【データファブリック】 【データメッシュ】
技術レイヤーで統合 → 組織レイヤーで分散
中央の統合基盤 → 分散したドメイン基盤
メタデータ駆動の自動化 → ドメインチームの自律運営
既存組織のまま導入可 → 組織変革が前提
「Howでつなぐ」 → 「Whoで分ける」
主役: プラットフォームエンジニア → 主役: ドメインチーム
両者を排他的な選択肢と捉えると話がこじれます。「組織的にはドメインメッシュを目指しつつ、技術的にはメタデータ駆動のファブリック基盤で支える」という組み合わせは、むしろ相性が良いのです。これについては本記事の後半で詳述します。データメッシュの詳細はA-05 データメッシュとはをご覧ください。
データファブリックの実装パターン
実装には大きく3つの選択肢があります。既存資産や予算、チームスキルによって最適解が異なります。
- 商用プラットフォーム型:IBM Cloud Pak for Data、Informatica IDMC、Talendなどを導入する方法。統合された機能が揃い、SLA付きのサポートが受けられる一方、コストとベンダーロックインが課題になります。大企業・規制産業で選ばれがちな選択肢です。
- データ仮想化型:Denodo、Dremio、Starburst(Trinoベース)などを中心に据える方法。物理的なデータ移動を最小化しながら複数ソースを論理統合でき、マルチクラウドに強みがあります。仮想化のパフォーマンスとキャッシュ戦略が実装の肝です。
- OSS組み合わせ型:DataHub(メタデータ)、Trino(クエリ)、Apache Atlas(ガバナンス)、Great Expectations(品質)などを組み合わせて自前構築する方法。自由度が高い反面、運用負荷とインテグレーションのコストがかさみます。エンジニアリング能力が高い組織向けです。
| パターン | コスト | 柔軟性 | 導入期間 | 運用負荷 | 代表ツール |
|---|---|---|---|---|---|
| 商用プラットフォーム型 | 高 | 中 | 中(6〜12ヶ月) | 低 | IBM Cloud Pak、Informatica IDMC、Talend |
| データ仮想化型 | 中 | 高 | 中(4〜8ヶ月) | 中 | Denodo、Dremio、Starburst |
| OSS組み合わせ型 | 低(ライセンス) | 最高 | 長(12ヶ月以上) | 高 | DataHub、Trino、Atlas、GX |
データファブリックの導入判断――いつ必要になるか
データファブリックは「あればうれしい」アーキテクチャではなく、「切実に必要になる」状況で初めて投資が正当化されます。導入が有効になるタイミングは次のような場面です。
- マルチクラウド環境:AWS・Azure・GCPなど複数クラウドにデータが分散し、ガバナンスが揃わない。
- レガシーシステムとの共存:メインフレームやオンプレDWHが現役で、簡単には廃止できない。
- データの発見性が課題:「必要なデータがどこにあるか誰も知らない」状態が慢性化している。
- 規制対応:個人情報や金融情報の所在と使用履歴を常時トレースする必要がある。
逆に、データソースがほとんど単一クラウド上に集まっており、チームの規模も小さい場合は、まずデータカタログとメタデータ管理(A-09)から始めるほうが費用対効果が高いでしょう。メタデータの基盤がないままデータファブリックを導入しても、「豪華な空箱」になってしまいます。
データファブリックとデータメッシュの併用
「vs」で二者択一を迫られがちですが、成熟した組織では「AND」で捉えるほうが現実的です。データメッシュの組織モデル(ドメインチームによる自律運営)を採用しつつ、その土台となるセルフサービス基盤としてデータファブリック的な技術基盤(メタデータ統合・ガバナンス自動化)を据える、という組み合わせです。
具体例を挙げます。小売大手が国内・海外・EC・店舗の4ドメインにデータメッシュを適用する際、各ドメインが独自のDWHやレイクハウスを運用する一方で、DataHubベースの全社カタログと、Starburstによるクロスドメインクエリ、OpenLineageによる全社リネージ統合を共通のファブリック層として提供する――このような構成は実際に海外の大規模小売・金融で増えています。組織はメッシュで、技術はファブリックで、というのは矛盾ではなく相互補完です。
まとめ――データファブリックは「技術でつなぐ」アプローチ
- データファブリックはメタデータとAI/MLで分散データを統合する技術アーキテクチャで、Gartner提唱の概念です。
- 5つの構成要素(メタデータ管理、カタログ、統合・仮想化、ガバナンス、AI/ML自動化)が一体で機能します。
- データメッシュが組織主導(Who)の分散アプローチであるのに対し、データファブリックは技術主導(How)の統合アプローチで、両者は相互補完的です。
- マルチクラウド・レガシー併存・規制対応が課題になった段階で導入のメリットが顕在化します。
- 実装は商用プラットフォーム型、データ仮想化型、OSS組み合わせ型の3系統があり、組織規模とスキルによって選定します。
次のステップとして、A-05 データメッシュ、A-09 メタデータ管理、C-08 マルチクラウドデータ基盤をご参照ください。DE-STKでは、データファブリック導入の要件整理から、既存資産を活かす段階的構築までを伴走支援しています。
よくある質問(FAQ)
Q. データファブリックとデータメッシュの違いは何ですか?
データファブリックはメタデータとAIを活用した技術的な統合アプローチで、データメッシュはドメインチームにデータの所有権を分散する組織的アプローチです。「How(技術)」と「Who(組織)」という異なる軸の話であり、両者は排他的ではなく、併用することも可能です。特に大規模組織では組織はメッシュ、技術はファブリックという組み合わせが現実的です。
Q. データファブリックの導入にはどんなツールが必要ですか?
メタデータ管理ツール(DataHub、Apache Atlas等)、データ仮想化ツール(Denodo、Dremio、Starburst等)、データカタログ、ガバナンスエンジンが主要なコンポーネントです。商用プラットフォームを使う場合はIBM Cloud Pak for Data、Informatica IDMC、Talendなどが統合的な選択肢になります。
Q. データファブリックは小規模な組織でも必要ですか?
データソースが少なく単一クラウドで完結する小規模組織では、データファブリックの導入はオーバーエンジニアリングになりがちです。まずはデータカタログとメタデータ管理の基礎を整え、マルチクラウドやレガシー連携が課題になった段階で検討するのが適切な順序です。