Databricks入門――レイクハウスプラットフォームの全体像

Databricksとは、Apache Sparkの開発者たちが創業した「データレイクハウス」の統合データ＆AIプラットフォームです。データレイクの柔軟性とDWHの信頼性を1つのストレージ層で両立させる「レイクハウス」という概念を最初に提唱したのがDatabricksであり、その実装がDelta Lake + Spark + Unity Catalogの3本柱に結実しています。データエンジニアリング、SQL分析、機械学習、生成AI活用までを1つのワークスペースでカバーできる点が他DWHとの大きな差別化要因です。本記事ではDatabricksのアーキテクチャ、主要機能、料金モデル、そして無料で試せるCommunity Editionからの始め方までを段階的に解説します。

Databricksとは何か――「レイクハウスの提唱者」

Databricksは2013年、UCバークレー校のAMPLabでApache Sparkを開発した研究者たちが創業した企業です。創業者の1人であるMatei Zaharia氏はSparkの生みの親であり、現在もDatabricks社のCTOとして同プラットフォームを率いています。当初はマネージドSparkサービスとしてスタートしましたが、その後「レイクハウス」という新しいアーキテクチャ概念を提唱し、DWHとデータレイクの統合を具現化していきました。

Databricksの思想を一言でいえば、「データの保管先はオブジェクトストレージ1つで十分。あとはその上にトランザクション性・ACID・スキーマ管理を提供するレイヤー(Delta Lake)を被せれば、DWHとしても分析プラットフォームとしても使える」というものです。この発想はオープンテーブルフォーマットの台頭を引き起こし、現代のデータアーキテクチャに大きな影響を与えました。

Databricksのアーキテクチャ

Databricksのアーキテクチャは、ストレージ層・処理層・ガバナンス層の3階層で整理できます。ストレージ層にはDelta Lake、処理層にはSpark/Photonエンジン、ガバナンス層にはUnity Catalogが配置されます。

【Databricksのアーキテクチャ】

   [Governance Layer]
   [Unity Catalog (メタデータ・権限・リネージ)]
                 |
                 v
   [Processing Layer]
   [Spark / Photon / Databricks SQL]
                 |
                 v
   [Storage Layer]
   [Delta Lake (Parquet + Transaction Log)]
                 |
                 v
   [Cloud Object Store (S3 / GCS / ADLS)]

※ 処理層は用途別に分離(ETL=All-Purpose、BI=SQL Warehouse)

Delta Lakeは、Parquetファイルとトランザクションログ(_delta_log)を組み合わせることで、ACIDトランザクション・タイムトラベル・スキーマ進化をオブジェクトストレージ上で実現するオープンソースレイヤーです。PySparkからは通常のテーブルと同じ感覚で扱えます。

from pyspark.sql.functions import col

df = spark.read.format("csv").option("header", True).load("/mnt/raw/orders.csv")
df.write.format("delta").mode("overwrite").save("/mnt/silver/orders")

orders = spark.read.format("delta").load("/mnt/silver/orders")
orders.filter(col("amount") > 1000).show()

主な機能

Databricksの主要機能は6つです。それぞれがデータ活用の異なる側面をカバーしており、統合プラットフォームとしての強みを形成しています。

1. Delta Lake：ACIDトランザクション・タイムトラベル・スキーマ進化をオブジェクトストレージ上に提供するオープンソースのテーブルフォーマットです。

2. Databricks SQL：SQLウェアハウスと呼ばれる専用コンピュートでBI分析を高速化します。Photonエンジンによりクエリ性能は従来Spark比で数倍に達します。

3. MLflow：機械学習の実験管理・モデルレジストリ・デプロイを統合するMLOpsプラットフォームです。オープンソース版も存在します。

4. Unity Catalog：統合ガバナンスレイヤーとして、複数ワークスペースにまたがるメタデータ管理・アクセス制御・データリネージを提供します。

5. Databricks Workflows：Databricks内でオーケストレーションを完結させるワークフロー機能です。外部のAirflowが不要なシンプル構成を実現できます。

6. Mosaic AI：生成AI・LLMを業務データと結びつけるためのプラットフォーム機能群です。Vector Search・Model Serving・AI Agent開発をサポートします。

機能	概要	対応するユースケース	競合との比較
Delta Lake	ACID・タイムトラベル・スキーマ進化	レイクハウス全般	Iceberg・Hudiと並ぶ3大フォーマット
Databricks SQL	Photonエンジン搭載SQLウェアハウス	BI分析、ダッシュボード	Snowflake・BigQueryに匹敵する性能
MLflow	MLライフサイクル管理	実験トラッキング、モデル配布	業界で最も普及したMLOpsツール
Unity Catalog	統合ガバナンス	メタデータ・権限・リネージ管理	Snowflake Horizonに相当
Databricks Workflows	ネイティブオーケストレーション	Databricks完結のパイプライン	Airflow不要の簡易運用
Mosaic AI	生成AI統合プラットフォーム	RAG、AIエージェント開発	近年急速に強化された領域

料金モデル

Databricksの料金は「DBU(Databricks Unit)」という単位を使った従量課金です。DBUは処理能力の抽象単位で、ワークロード種別・インスタンスサイズ・エディションによって単価が変動します。加えて、実際に動くクラウドのVM/ストレージ料金はユーザー側のアカウントで別途発生します。

ワークロードは大きく3種類に分かれます。All-Purpose Compute(対話的な開発・ノートブック用)、Jobs Compute(本番スケジュールバッチ用)、SQL Warehouse(BI用)の3つです。同じ処理でも、より専用性が高いクラスタほど単価が安くなる設計です。

ワークロード	DBU単価の傾向	適するユースケース
All-Purpose Compute	最も高い	対話的な開発、ノートブック、ad-hoc
Jobs Compute	中程度	スケジュールバッチETL、本番パイプライン
SQL Warehouse(Serverless)	中〜高	BIクエリ、ダッシュボード
SQL Warehouse(Classic)	中	安定BIワークロード
Delta Live Tables	中	宣言的パイプライン構築

DatabricksとSnowflakeの違い

Databricksの選定時に必ず比較されるのがSnowflakeです。両者はクラウドデータ基盤のリーダー同士ですが、出自と思想が根本的に異なります。

Databricksは「Sparkベース・データレイク出自」であり、機械学習や大規模ETL、非構造化データの処理に強みを持ちます。Snowflakeは「SQL分析最適化・DWH出自」であり、BI用途や構造化データの高速クエリ、データシェアリングに強みを持ちます。最近は両者とも相手の領域に寄ってきており、境界はかつてより曖昧になっています。

観点	Databricks	Snowflake
設計思想	レイクハウス(データレイク+DWH)	DWHファースト(後にIceberg対応)
ストレージ	Delta Lake(オブジェクトストア上)	独自マイクロパーティション形式
SQLクエリ性能	Photon搭載で高速、BIにも対応	SQLに最適化、非常に高速
ML/AI対応	ネイティブにML/AIプラットフォーム統合	Snowpark・Cortex AIで追従中
エコシステム	Spark・PyTorch・MLflowなどOSSに強い	SaaS連携・データマーケットプレイスが強い

Databricksの始め方

Databricksを試すには、Community Edition(無料版)または14日間の無料トライアルを使うのが手軽です。Community Editionは単一ノードのマイクロクラスタと少量の容量しか使えませんが、基本機能の学習には十分です。

登録後はノートブックを作成し、PySparkでデータを読み込むところから始めましょう。以下は、Databricksのノートブックで最初に打つ典型的なコード例です。

df = spark.read.format("csv").option("header", True).load("/databricks-datasets/samples/population-vs-price/data_geo.csv")
df.createOrReplaceTempView("cities")
display(df.limit(10))

さらにDatabricks SQLを使えば、SQLセルだけで集計クエリを走らせてダッシュボードを構築できます。

-- Databricks SQLで実行
select state_name, sum(population_2014) as total_pop
from cities
group by state_name
order by total_pop desc;

まとめ

本記事の要点を振り返ります。

Databricksはレイクハウスを提唱した統合データ＆AIプラットフォーム
Delta Lake + Spark + Unity Catalogの3本柱で構成
DBUベースの従量課金。ワークロード種別で単価が変動
ML/AI統合とOSSエコシステム連携が独自の強み
Community EditionとトライアルでPoCは無料で試せる

次に読むべき記事は、レイクハウスの概念整理、オープンテーブルフォーマット比較、そしてメダリオンアーキテクチャの実践です。DE-STKではDatabricks導入のアーキテクチャ設計・コスト診断・MLOps運用までを一貫して支援しています。「SnowflakeとDatabricksで迷っている」「現行Spark基盤の移行を検討中」といった相談もお気軽にどうぞ。

よくある質問(FAQ)

Q. Databricksは無料で試せますか?

A. はい。Databricks Community Editionで基本機能を無料で試せます。商用利用にはStandard/Premiumプランが必要で、14日間の無料トライアルも提供されています。

Q. DatabricksとSnowflakeのどちらを選ぶべきですか?

A. SQL分析が中心ならSnowflake、ML/AIの活用やSpark処理が重要ならDatabricksが適しています。両者を併用する企業も増えています。

Q. Databricksを使うにはSparkの知識が必要ですか?

A. Databricks SQLを使えばSQLだけで分析が可能です。高度なデータ処理やML開発にはPySpark/Scalaの知識が必要ですが、ノートブック環境で段階的に学べます。