最近「Iceberg」という言葉をよく見かけます。Snowflakeの新機能にも頻繁に出てくる。何なのか調べてみました。

Icebergテーブルとは

Apache Icebergは、データの保存形式(テーブルフォーマット)を標準化するオープンソースプロジェクトです。

従来の問題はこうです。

  • Snowflakeのデータ → Snowflake専用形式で保存 → Snowflakeでしか読めない
  • BigQueryのデータ → BigQuery専用形式で保存 → BigQueryでしか読めない

Icebergなら:

  • オープンな形式で保存 → Snowflakeでも、BigQueryでも、Sparkでも読める
  • ツールを変えてもデータはそのまま使える
従来:
[Snowflake専用形式] → Snowflakeでしか読めない

Iceberg:
[オープン形式(Parquet + メタデータ)]
  → Snowflake / BigQuery / Spark / Trino etc.

なぜこれが重要か

「このツールをやめたらデータが取り出せない」— これがベンダーロックインです。

ロックインされると:

  • 値上げされても逃げられない
  • 機能が不満でも乗り換えコストが高すぎる
  • 契約更新時の交渉力が弱くなる

自治体は特にロックイン問題に敏感です。既存のシステムの契約から抜け出せない実例を見てきました。

お客さんへの提案で「データはベンダーにロックインされません」と伝えることの意味は大きい。「やめたくなったらやめられる」は、導入を決める際の安心材料になります。

Snowflakeがオープン形式をサポートする理由

一見矛盾があります。自社の専用形式の方がロックインできて有利なのでは?

Snowflakeの戦略はこうです。 「データの持ち方はオープンにして、その上のサービスで勝負する」

  • データはIcebergで自由に → でもCortex AIやData SharingなどのサービスはSnowflakeが便利
  • 「やめたければやめていい。でも便利だから続けたい」を目指す

これは正しい戦略だと思います。ロックインで顧客を縛るより、 価値で選ばれる 方が長期的に強い。

実務での影響

DWH選定時に 「やめたくなったらやめられるか?」 を確認するポイントになります。

Icebergが使えるかどうかは、導入の安心材料です。BigQueryもIceberg対応を進めていて(BigLakeなど)、業界全体がオープン形式に向かっています。

「データはあなたのもの」と言えることが、提案時の信頼になる。ツールは便利だから使う、やめたくなったらやめられる。この関係が健全です。

まとめ

  • Icebergはデータの保存形式をオープンにする仕組み
  • 「やめたくなったらやめられる」が導入判断の安心材料になる
  • Snowflakeがオープン形式をサポートする戦略は理にかなっている
  • ツール選びの前に「やめられるかどうか」を確認してほしい
  • 次の記事で、シリーズ全体の振り返りを書きます