AIを導入する前に、データは「使える状態」になっているか

AIに投資して、成果が出ない企業の共通点

McKinseyが2024年に発表したグローバル調査によると、AIから 有意義なROIを達成した企業はわずか11% にとどまる¹。残り89%の企業は、ツールを導入したのに期待した成果を得られていない。

この数字を見たとき、私は驚かなかった。現場でデータ基盤の構築を手がけていると、「AIを入れたい」という相談の大半が、実はデータの問題だと気づくからだ。モデルの精度が悪いのではない。 そもそもモデルに渡すデータが「使える状態」になっていない のだ。

Gartnerの調査でも、データ品質の低さが原因でAIプロジェクトの成果が損なわれていると、データ責任者の約6割が回答している²。問題の根はモデル側ではなく、データ側にある。

「AI Ready」なデータとは何か

「AI Ready」という言葉は曖昧に使われがちだが、私たちは5つの条件で定義している。

レベル	条件	具体例
Lv.1 構造化	行と列がある。機械が読める形式	BigQueryテーブル、CSV
Lv.2 品質管理	欠損・重複・矛盾がない	dbt testsによるバリデーション
Lv.3 文書化	カラムの意味、単位、更新頻度が明記	`sales_amount_yen` vs `col1`
Lv.4 アクセス可能	SQLやAPIで即座に取得できる	Metabase、REST API
Lv.5 鮮度保証	定期的に更新され、最新性が担保	日次/時間次の自動同期

多くの組織はLv.1すら満たせていない。共有フォルダの奥にあるExcelファイル、メール添付のPDF、「あの人のPCにしかない」データ。こうした状態でAIツールを導入しても、 出てくるのは「もっともらしいが間違った分析」 だけだ。

AIレディネス・スタック: データが「使える」までの道筋

データがAI Readyになるまでには、明確なレイヤー構造がある。

AI Readinessスタック: Raw DataからAI Readyまでの5段階

このスタックを下から積み上げることが、 AIプロジェクトの成功率を根本的に変える 。Lv.0からいきなりLv.5を目指すのは無理がある。一段ずつ確実に上がることが重要だ。

よくある失敗パターン

現場で繰り返し目にする失敗を整理する。

データ整備の前にAIツールを購入する

これが最も多い。高額なAIプラットフォームを契約したが、データがバラバラでそもそも投入できない。結果として、AIツールは高価な置物になる。

「データが多い = AIが賢くなる」と思い込む

データの 量より質 が決定的に重要だ。矛盾したデータ、重複したレコード、定義が曖昧なカラム。こうしたノイズをAIは「学習」してしまい、出力の信頼性が崩壊する。

AIの出力を無条件に信じる

入力データに問題があれば、AIは 自信に満ちた誤りを生成する 。いわゆる「ハルシネーション」はLLMだけの問題ではない。ビジネスデータの文脈でも同じことが起きる。売上データに二重計上があれば、AIは「売上が好調です」と自信を持って報告するだろう。元データの品質を知らないまま出力を鵜呑みにするのは危険だ。

機密データを外部AIサービスに送信する

ガバナンスなしにChatGPTやClaudeに社内データを貼り付けている組織は少なくない。データ分類と利用ポリシーの整備が先だ。

AIは「壊れたデータ」を直せない

強調しておきたい。 AIはデータ品質の問題を解決しない 。入力がゴミなら、出力は「もっともらしく聞こえるゴミ」になるだけだ。

GoogleのDORA（DevOps Research and Assessment）チームの研究でも、データ駆動型の意思決定で成果を上げている組織は、データの信頼性とアクセス性を先に確保していることが示されている³。AIは手段であり、 信頼できるデータという土台がなければ機能しない 。

実践的なアーキテクチャ: DWH → dbt → Metabase → NotebookLM

私たちが実際に構築しているパイプラインを紹介する。これは流行りのツールを並べたものではなく、AI Readinessの各レベルに対応した設計だ。

実践パイプライン: BigQuery → dbt → Metabase → NotebookLM

なぜこの構成なのか

BigQuery: スケーラブルで、SQLさえ書ければ誰でもアクセスできる
dbt: SQLベースでデータ変換とテストを一元管理。 schema.yml でカラムの意味を文書化できる
Metabase: ノーコードでダッシュボードを作成でき、JSON形式でのエクスポートがAI連携と相性が良い
NotebookLM: 構造化されたJSONを投入すれば、データの傾向分析や要約を高精度で返す

ポイントは、 各ツールがAI Readinessのレベルに対応している こと。場当たり的にツールを入れるのではなく、レベルを一段ずつ上げるために選定している。

まず足元を固める

AI活用の議論をすると、モデルの選定やプロンプトの工夫に話が集中しがちだ。しかし現実には、 議論の8割は「データをどう整理するか」 で決着がつく。

地味だが、これが本質だ。データが整っていれば、AIツールの選択肢は広がり、成果も出やすくなる。データが整っていなければ、どんな高価なAIも機能しない。

McKinsey & Company「The state of AI in early 2024」- AIから有意義なROIを達成した企業は全体の11%にとどまると報告 ↩
Gartner「Data Quality Market Guide」- データ品質の低さがAI/アナリティクスの成果を損なっているとCDOの約6割が回答 ↩
Google Cloud DORA Team「Accelerate State of DevOps Report」- データ駆動型組織のパフォーマンス要因を継続的に研究 ↩