最近「Iceberg」という言葉をよく見かけます。Snowflakeの新機能にも頻繁に出てくる。何なのか調べてみました。
Icebergテーブルとは
Apache Icebergは、データの保存形式(テーブルフォーマット)を標準化するオープンソースプロジェクトです。
従来の問題はこうです。
- Snowflakeのデータ → Snowflake専用形式で保存 → Snowflakeでしか読めない
- BigQueryのデータ → BigQuery専用形式で保存 → BigQueryでしか読めない
Icebergなら:
- オープンな形式で保存 → Snowflakeでも、BigQueryでも、Sparkでも読める
- ツールを変えてもデータはそのまま使える
従来:
[Snowflake専用形式] → Snowflakeでしか読めない
Iceberg:
[オープン形式(Parquet + メタデータ)]
→ Snowflake / BigQuery / Spark / Trino etc.
なぜこれが重要か
「このツールをやめたらデータが取り出せない」— これがベンダーロックインです。
ロックインされると:
- 値上げされても逃げられない
- 機能が不満でも乗り換えコストが高すぎる
- 契約更新時の交渉力が弱くなる
自治体は特にロックイン問題に敏感です。既存のシステムの契約から抜け出せない実例を見てきました。
お客さんへの提案で「データはベンダーにロックインされません」と伝えることの意味は大きい。「やめたくなったらやめられる」は、導入を決める際の安心材料になります。
Snowflakeがオープン形式をサポートする理由
一見矛盾があります。自社の専用形式の方がロックインできて有利なのでは?
Snowflakeの戦略はこうです。 「データの持ち方はオープンにして、その上のサービスで勝負する」 。
- データはIcebergで自由に → でもCortex AIやData SharingなどのサービスはSnowflakeが便利
- 「やめたければやめていい。でも便利だから続けたい」を目指す
これは正しい戦略だと思います。ロックインで顧客を縛るより、 価値で選ばれる 方が長期的に強い。
実務での影響
DWH選定時に 「やめたくなったらやめられるか?」 を確認するポイントになります。
Icebergが使えるかどうかは、導入の安心材料です。BigQueryもIceberg対応を進めていて(BigLakeなど)、業界全体がオープン形式に向かっています。
「データはあなたのもの」と言えることが、提案時の信頼になる。ツールは便利だから使う、やめたくなったらやめられる。この関係が健全です。
まとめ
- Icebergはデータの保存形式をオープンにする仕組み
- 「やめたくなったらやめられる」が導入判断の安心材料になる
- Snowflakeがオープン形式をサポートする戦略は理にかなっている
- ツール選びの前に「やめられるかどうか」を確認してほしい
- 次の記事で、シリーズ全体の振り返りを書きます