「クラウドに移行すれば運用コストが下がる」という期待値で始まったプロジェクトが、蓋を開けてみたら月額請求が想定の3倍――この光景は、クラウド移行を経験した多くの組織に共通するものです。クラウド移行でコストが3倍になる原因は、オンプレミスの設計思想をそのままクラウドに持ち込む「リフト&シフト」にあります。オンプレで24時間稼働が当たり前だったDBサーバーをそのままEC2に載せ替え、DWHはRedshiftでプロビジョニングし、データはS3に無制限に積み上げる――この一連の判断は、個別には正しく見えても、クラウドの従量課金モデルとは致命的にミスマッチです。Anti-patternシリーズとしてあえて指摘しますが、これは技術者の怠慢ではなく、オンプレ時代のメンタルモデルが合理的判断を歪める構造的現象です。
「クラウドは安い」の誤解
クラウドの価格モデルは従量課金が基本です。これはオンプレミスの固定費モデル(CAPEX中心)とは根本的に異なります。CAPEXの世界では、最初にハードウェアを買ってしまえば、あとは電気代と保守費だけで使い続けられます。稼働率が高ければ高いほど、単位時間あたりのコストは下がります。一方OPEXの世界では、動かした分だけ請求されるため、稼働率が高いほどコストも上がります。この非対称性を理解しないまま「クラウドは安い」と信じ続けると、移行後に大きな失望が待っています。
特にデータ基盤は、コンピュート・ストレージ・ネットワーク転送・クエリの全てが従量課金対象となるため、移行によるコスト変動が最も劇的に表れる領域です。
| 項目 | オンプレミス | クラウド(リフト&シフト) | クラウド(ネイティブ最適化) |
|---|---|---|---|
| 初期投資 | 大(サーバー購入) | ほぼゼロ | ほぼゼロ |
| 月額運用費 | 固定(電気代+保守) | 変動(想定の2〜3倍) | 変動(オンプレ比70%以下) |
| スケーリング | ハードウェア追加で遅延 | 即時だが高コスト | オートスケールで最適化 |
| 隠れコスト | DC運用、保守契約 | Egress、ログ、バックアップ | 設計で最小化可能 |
| 3年総額 | 大きな初期+安定運用 | オンプレの150〜300% | オンプレの60〜80% |
コストが3倍に膨らむ5つの原因
クラウドコストが膨張する原因は、主に5つに整理できます。いずれもDE-STKの現場で繰り返し目撃してきたパターンです。
リフト&シフトの罠
最大の原因はリフト&シフトです。オンプレの常時稼働インスタンスをそのままクラウドの同スペックに載せ替えると、オーバープロビジョニングによる無駄が24時間続きます。オンプレではピーク負荷に合わせた余裕を持ったサイジングが一般的でしたが、クラウドではピーク時だけスケールアップする設計が本来の姿です。載せ替え時にこの差を埋めないと、オンプレ時代の「余裕の分」がそのまま月額コストに転化します。
データ転送料金の見落とし
次に重要なのはEgress(データ送出)料金です。クラウドからインターネットへ、またはリージョン間での転送には、思いのほか高い料金がかかります。BIダッシュボードが大量データをフロントに返す設計になっていたり、分析結果をオンプレに戻す処理が毎日走っていたりすると、Egressだけで総コストの20〜30%を占めるケースもあります。請求書の内訳を見て初めて気づく、代表的な「隠れコスト」です。
ストレージの無制限拡大
オンプレではストレージ容量に物理的な制約があり、「もう入らない」という天井が自然にあります。クラウドのオブジェクトストレージにはそれがありません。結果として、不要なログ、古いバックアップ、一度も参照されないダンプファイルが際限なく蓄積します。S3に数PBのゴミが眠っているといった状況は、移行から数年経った組織では珍しくない光景です。
開発・検証環境の放置
4番目は開発環境の放置です。オンプレでは物理サーバーを一度立てればコストは増えませんが、クラウドでは起動時間がそのまま料金になります。営業時間外も開発環境が動き続けている状態は、本番と同じコストを意味します。使われていない検証環境が24/7稼働し続け、月末の請求書で初めて存在を思い出す――これも典型的なパターンです。
従量課金の「予測不能性」
最後の原因は予測不能性です。データ量やクエリ量の増加に伴って、コストは非線形に跳ね上がります。特にBigQueryやAthenaのようなクエリ課金モデルでは、1本の非効率なクエリが月額数百万円の超過を生むことがあります。予測不能性自体はクラウドの利点でもありますが、予算コントロールの仕組みがないとそのまま暴走します。
【クラウドコストの内訳と膨張メカニズム】
オンプレ時代
固定: 100% [=====================]
変動: 0%
| リフト&シフトで移行
v
クラウド移行直後
コンピュート : 45% [==========]
ストレージ : 20% [====]
ネットワーク : 15% [===] <- Egress 見落とし多発
クエリ課金 : 10% [==]
バックアップ : 5% [=]
その他 : 5% [=]
合計: オンプレ比 200〜300%
| FinOps & 最適化
v
最適化後
コンピュート : 30% [======] オートスケール導入
ストレージ : 10% [==] ライフサイクル設定
ネットワーク : 8% [==] 同リージョン化
クエリ課金 : 7% [=] クエリ最適化
バックアップ : 3% [=]
その他 : 2% [=]
合計: オンプレ比 60〜80%
※ 同じワークロードでも、設計次第で最終コストが 3〜4 倍変わる。
クラウドネイティブなコスト最適化戦略
処方箋は、クラウドネイティブな運用への移行です。以下の4つの施策を組み合わせることで、大半の組織でコストを30〜50%削減できます。
FinOpsの導入
まずFinOpsの導入です。FinOpsは単なるコスト削減活動ではなく、「コストを可視化し、意思決定に反映するための運用文化」です。タグ付けによるコスト配分、サービス単位のダッシュボード化、予算アラートの設定、月次レビューの習慣化――これらを組み合わせて、コストを「見える状態」にすることが最初のステップです。見えていないコストは最適化できません。
適切なインスタンスサイジングとオートスケーリング
次にインスタンスサイジングの見直しです。CloudWatchやStackdriverで実際のCPU使用率・メモリ使用率を確認し、過剰なスペックを下げます。さらにリザーブドインスタンス(1年/3年契約で30〜50%割引)、スポットインスタンス(最大90%割引だが中断リスクあり)を組み合わせることで、定常コストを大幅に下げられます。バッチ処理はスポットで動かすだけで、しばしば60%以上の削減が実現します。
データライフサイクル管理
3つ目はストレージのライフサイクル管理です。S3であればStandard → Infrequent Access → Glacierのように、アクセス頻度に応じてストレージクラスを自動遷移させます。設定自体は半日で済みますが、削減インパクトは大きく、古いデータが大量にある組織では月額ストレージ費の40〜60%削減が見込めます。
開発環境の自動停止
4つ目は開発環境の自動停止です。営業時間外(夜間・週末)に自動シャットダウンすることで、開発インスタンスのコストを約65%削減できます(週5日×8時間稼働を40時間と仮定)。AWSであればInstance Scheduler、GCPであればCloud Scheduler+Cloud Functionsで簡単に実装できます。この施策は導入コストに対してリターンが最も高い部類に入ります。
| 施策 | 削減効果 | 導入難易度 | 実施期間 |
|---|---|---|---|
| タグ付け&可視化ダッシュボード | 間接効果:ここから全てが始まる | 低 | 1〜2週間 |
| 開発環境の自動停止 | 開発費の60〜70%削減 | 低 | 1週間 |
| ストレージクラスの自動遷移 | ストレージ費の40〜60%削減 | 低 | 1週間 |
| リザーブド&スポット活用 | コンピュート費の30〜60%削減 | 中 | 1〜2か月 |
| クエリ最適化&パーティション設計 | クエリ費の50〜80%削減 | 中 | 1〜3か月 |
| クラウドネイティブ・リアーキテクチャ | 総費の30〜50%削減 | 高 | 6〜12か月 |
コスト見積もりのフレームワーク
移行前に必ず行うべきなのが、3年間のTCO(Total Cost of Ownership)試算です。1年目だけのコストではなく、データ量・ユーザー数・クエリ数の成長を織り込んだ3年分を算出することで、リフト&シフトの限界を数字で可視化できます。以下はTCO試算のテンプレート例です。
| コスト項目 | 年1 | 年2 | 年3 | 備考 |
|---|---|---|---|---|
| コンピュート費 | 基準 | +30% | +60% | データ量の増加を反映 |
| ストレージ費 | 基準 | +50% | +100% | 年50%増加が一般的 |
| Egress/転送費 | 基準 | +30% | +50% | ダッシュボード利用拡大 |
| クエリ課金 | 基準 | +40% | +80% | アナリスト増加+利用定着 |
| エンジニアリング費 | 大 | 中 | 中 | 初年度の学習コスト |
| 移行工数 | 大 | − | − | 1回限り |
この試算を作ると、リフト&シフトでは2〜3年目に急激にコストが膨らむことが明確に見えてきます。見積もりの段階で「クラウドネイティブ設計で再構築するほうが3年TCOで安い」と判明するケースも多く、設計の方針決定に直結します。
コスト最適化に成功した企業の事例
コスト最適化に成功した2つの事例を匿名化して紹介します。
事例1は国内メディア企業です。クラウド移行から2年目に月額コストがオンプレ時代の2.5倍に膨らみ、CFOから強い疑義が入っていました。DE-STKの支援のもとでFinOpsを導入し、まずは全リソースへのタグ付けと可視化ダッシュボードを整備。次に開発環境の自動停止、S3ライフサイクル、リザーブドインスタンス活用を順次実施しました。6か月後の総コストは初期比で40%削減され、オンプレ時代を下回る水準まで戻りました。特に効果的だったのはタグ付けで、「誰がどのサービスにいくら使っているか」が見える状態になると、現場の意識が一気に変わりました。
事例2は国内製造業です。リフト&シフトで移行した旧OracleベースのDWHを、BigQueryとCloud Storageを中心としたクラウドネイティブな構成にリアーキテクチャしました。移行設計では、常時稼働インスタンスを廃止してサーバーレス・従量課金モデルを徹底し、データはCloud Storageの適切なクラスに配置。結果、全体コストは50%削減され、パフォーマンスも同時に向上しました。「クラウドの利点を引き出すには、オンプレ時代のアーキテクチャを捨てる必要があった」というのがこの組織の総括でした。
まとめ――クラウド移行は「引っ越し」ではなく「建て替え」
本稿の核心を要点として整理します。
- クラウド移行でコストが膨らむ原因は、オンプレ思想をそのまま持ち込むリフト&シフトにある
- Egress・ストレージ無制限・開発環境放置・予測不能性が「隠れコスト」の主犯
- FinOpsの導入でコストを見える化し、タグ付けと予算アラートを最優先で整備する
- ストレージライフサイクル・自動停止・リザーブド/スポットは低難易度で大きな効果が得られる
- 3年TCO試算でリフト&シフトの限界を数字で示し、必要ならリアーキテクチャを検討する
クラウド移行は「引っ越し」ではなく「建て替え」です。DE-STKでは、FinOpsの導入支援、3年TCO試算、リアーキテクチャの設計レビューまで一気通貫で支援しています。「請求書が想定の3倍で、どこから手を付ければよいかわからない」という段階でも、可視化から着手可能です。
よくある質問
クラウド移行でコストが増える最大の原因は何ですか?
オンプレミスの設計思想をそのままクラウドに持ち込む「リフト&シフト」が最大の原因です。オンプレでは固定費だったものがクラウドでは従量課金になるため、常時稼働・オーバープロビジョニング・Egress料金の見落としなどが全てコストに転化します。設計思想の建て替えを伴わない移行は、ほぼ確実にコスト増を招きます。
クラウドのデータ基盤コストを最適化するにはどうすればよいですか?
FinOps(コスト可視化・予算管理)の導入、適切なインスタンスサイジング、データライフサイクル管理、未使用環境の自動停止が基本施策です。これらを組み合わせることで30〜50%のコスト削減が見込めます。特にFinOpsによる可視化は、全ての最適化施策の前提になるため、最初に取り組むべき項目です。
クラウド移行前にコストをどう見積もればよいですか?
3年間のTCO(Total Cost of Ownership)を試算することが重要です。インフラ費用だけでなく、データ転送料金、ストレージの増加予測、エンジニアリングコスト(学習コスト・移行工数)まで含めて総合的に算出します。2年目・3年目にコストが膨らむパターンを数字で可視化できると、リフト&シフトとクラウドネイティブ設計の比較が明確になります。