AI機能がどんどん出てきています。SnowflakeのCortex AI FunctionsがGAになり、IAG LoyaltyのようにMLプラットフォームをSnowflake上で構築する事例も出てきた。
でもそもそも「AIが使えるデータ」って何だろう?現場で考えてみました。
AI Readyなデータ、AI Readyじゃないデータ
AI Readyなデータの条件を整理してみます。
| 条件 | 意味 | 例 |
|---|---|---|
| 構造化されている | 行と列がある。意味がわかる | BigQueryのテーブル、CSVファイル |
| メタデータがある | カラム名に意味がある。単位がわかる | sales_amount_yen vs col1 |
| すぐ取り出せる | APIやSQLで抽出できる | DWH、Metabase |
| 定期的に更新される | 最新データが入っている | 自動同期されたデータ |
AI Readyじゃないデータ:
- 共有フォルダの奥底にあるExcelファイル
- メール添付のPDF報告書
- 紙の帳簿をスキャンしたもの
- 「○○さんのPCにしかない」データ
自分の経験では、お客さん先で「AIを使いたい」と言われるが、データがAI Readyじゃない場合が 9割 です。
最短ルート: Metabase → JSON → NotebookLM
自分が実際にやっている「AI Ready」の作り方はこうです。
① データをBigQuery(or Snowflake)に入れる
② Metabaseでダッシュボードを作る
③ ダッシュボードからJSON形式でダウンロード
④ NotebookLMに投入
⑤ 「このデータを分析して、主な傾向を教えて」と聞く
⑥ 分析レポートが出てくる
Metabaseがポイントです。直感操作でデータを絞り込み、JSON形式でダウンロードし、そのままAIに渡せる。構造化されたデータがそのまま保持されるので、AIが理解しやすい。
お客さんとの打ち合わせで「AI分析との連携がしやすいダッシュボードだというのは正直感動した」と言われたことがあります。MetabaseのJSON出力は、実は地味に強力な機能です。
Cortex AI Functions: DWHの中でAI処理が完結する
Snowflakeが2025年11月にGA(一般提供)にした機能も見てみます。
| 関数 | 機能 | 使い道 |
|---|---|---|
AI_CLASSIFY | テキストや画像を自動分類 | 問い合わせメールの分類 |
AI_TRANSCRIBE | 音声・動画からテキスト抽出 | 会議録画から議事録を自動生成 |
AI_SIMILARITY | テキストの類似度を計算 | 重複データの検出 |
AI_TRANSLATE | テキスト翻訳 | 多言語データの統一 |
AI_EXTRACT | テキストから情報抽出 | 請求書から金額・日付を自動抽出 |
データを外に出さずにAI処理ができる。セキュリティ的にも安心です。外部のAIサービスにデータを送る必要がないので、機密データを扱う企業でも導入しやすい。
現場でよくある会話
- 「AIで売上を予測したい」 → まず過去の売上データが整理されていますか?
- 「ChatGPTで分析したい」 → どのデータをChatGPTに渡しますか?機密データは大丈夫?
- 「AIレポートを自動化したい」 → レポートの元になるデータはどこにありますか?
AI活用の議論の 8割は「データをどう整理するか」 で終わります。残り2割が「AIをどう使うか」。
地味ですが、 AIを入れる前にデータ整理 。ここが9割です。
まとめ
- AI Readyなデータ = 構造化・メタデータ付き・取り出しやすい・最新
- 最短ルートはDWH + Metabase + NotebookLM
- Cortex AI FunctionsでDWH内でのAI処理も現実的に
- AIを入れる前にデータ整理。地味だけどここが9割
- 次の記事では、dbtを使った「壊れないデータ基盤」の作り方を調べてみます