AIに投資して、成果が出ない企業の共通点
McKinseyが2024年に発表したグローバル調査によると、AIから 有意義なROIを達成した企業はわずか11% にとどまる1。残り89%の企業は、ツールを導入したのに期待した成果を得られていない。
この数字を見たとき、私は驚かなかった。現場でデータ基盤の構築を手がけていると、「AIを入れたい」という相談の大半が、実はデータの問題だと気づくからだ。モデルの精度が悪いのではない。 そもそもモデルに渡すデータが「使える状態」になっていない のだ。
Gartnerの調査でも、データ品質の低さが原因でAIプロジェクトの成果が損なわれていると、データ責任者の約6割が回答している2。問題の根はモデル側ではなく、データ側にある。
「AI Ready」なデータとは何か
「AI Ready」という言葉は曖昧に使われがちだが、私たちは5つの条件で定義している。
| レベル | 条件 | 具体例 |
|---|---|---|
| Lv.1 構造化 | 行と列がある。機械が読める形式 | BigQueryテーブル、CSV |
| Lv.2 品質管理 | 欠損・重複・矛盾がない | dbt testsによるバリデーション |
| Lv.3 文書化 | カラムの意味、単位、更新頻度が明記 | sales_amount_yen vs col1 |
| Lv.4 アクセス可能 | SQLやAPIで即座に取得できる | Metabase、REST API |
| Lv.5 鮮度保証 | 定期的に更新され、最新性が担保 | 日次/時間次の自動同期 |
多くの組織はLv.1すら満たせていない。共有フォルダの奥にあるExcelファイル、メール添付のPDF、「あの人のPCにしかない」データ。こうした状態でAIツールを導入しても、 出てくるのは「もっともらしいが間違った分析」 だけだ。
AIレディネス・スタック: データが「使える」までの道筋
データがAI Readyになるまでには、明確なレイヤー構造がある。
このスタックを下から積み上げることが、 AIプロジェクトの成功率を根本的に変える 。Lv.0からいきなりLv.5を目指すのは無理がある。一段ずつ確実に上がることが重要だ。
よくある失敗パターン
現場で繰り返し目にする失敗を整理する。
データ整備の前にAIツールを購入する
これが最も多い。高額なAIプラットフォームを契約したが、データがバラバラでそもそも投入できない。結果として、AIツールは高価な置物になる。
「データが多い = AIが賢くなる」と思い込む
データの 量より質 が決定的に重要だ。矛盾したデータ、重複したレコード、定義が曖昧なカラム。こうしたノイズをAIは「学習」してしまい、出力の信頼性が崩壊する。
AIの出力を無条件に信じる
入力データに問題があれば、AIは 自信に満ちた誤りを生成する 。いわゆる「ハルシネーション」はLLMだけの問題ではない。ビジネスデータの文脈でも同じことが起きる。売上データに二重計上があれば、AIは「売上が好調です」と自信を持って報告するだろう。元データの品質を知らないまま出力を鵜呑みにするのは危険だ。
機密データを外部AIサービスに送信する
ガバナンスなしにChatGPTやClaudeに社内データを貼り付けている組織は少なくない。データ分類と利用ポリシーの整備が先だ。
AIは「壊れたデータ」を直せない
強調しておきたい。 AIはデータ品質の問題を解決しない 。入力がゴミなら、出力は「もっともらしく聞こえるゴミ」になるだけだ。
GoogleのDORA(DevOps Research and Assessment)チームの研究でも、データ駆動型の意思決定で成果を上げている組織は、データの信頼性とアクセス性を先に確保していることが示されている3。AIは手段であり、 信頼できるデータという土台がなければ機能しない 。
実践的なアーキテクチャ: DWH → dbt → Metabase → NotebookLM
私たちが実際に構築しているパイプラインを紹介する。これは流行りのツールを並べたものではなく、AI Readinessの各レベルに対応した設計だ。
なぜこの構成なのか
- BigQuery: スケーラブルで、SQLさえ書ければ誰でもアクセスできる
- dbt: SQLベースでデータ変換とテストを一元管理。
schema.ymlでカラムの意味を文書化できる - Metabase: ノーコードでダッシュボードを作成でき、JSON形式でのエクスポートがAI連携と相性が良い
- NotebookLM: 構造化されたJSONを投入すれば、データの傾向分析や要約を高精度で返す
ポイントは、 各ツールがAI Readinessのレベルに対応している こと。場当たり的にツールを入れるのではなく、レベルを一段ずつ上げるために選定している。
まず足元を固める
AI活用の議論をすると、モデルの選定やプロンプトの工夫に話が集中しがちだ。しかし現実には、 議論の8割は「データをどう整理するか」 で決着がつく。
地味だが、これが本質だ。データが整っていれば、AIツールの選択肢は広がり、成果も出やすくなる。データが整っていなければ、どんな高価なAIも機能しない。
Footnotes
-
McKinsey & Company「The state of AI in early 2024」- AIから有意義なROIを達成した企業は全体の11%にとどまると報告 ↩
-
Gartner「Data Quality Market Guide」- データ品質の低さがAI/アナリティクスの成果を損なっているとCDOの約6割が回答 ↩
-
Google Cloud DORA Team「Accelerate State of DevOps Report」- データ駆動型組織のパフォーマンス要因を継続的に研究 ↩