2026/5/27

生成AIの学習データをどう用意するか|社内データの棚卸し・品質管理・前処理の実務ガイド

# 生成AIの学習データをどう用意するか|社内データの棚卸し・品質管理・前処理の実務ガイド

「データはあるが、AIに使える状態ではない」問題

生成AI活用の課題調査で、25.5%の企業が「追加学習させるデータの用意と品質の問題」を挙げています。社内にデータ自体は存在するのに、AIに読ませられる品質・形式になっていないのが実態です。

生成AIの回答精度は入力データの品質に直結します。「ゴミを入れればゴミが出る(Garbage In, Garbage Out)」は、AI活用においても不変の原則です。

社内データによくある品質問題

1. フォーマットがバラバラ

同じ種類の文書でも、Word・Excel・PDF・紙のスキャン・メール本文・チャットログと形式が統一されていません。10年前のWord文書と最新のNotionページが混在している状態では、AIが一括で読み込むことは困難です。

2. 古いデータと最新データが混在

社内マニュアルの2019年版と2025年版が両方残っていて、AIがどちらを参照すべきか判別できません。「この規程は最新版です」というメタ情報が付いていないことがほとんどです。

3. 暗黙知が文書化されていない

ベテラン社員の頭の中にある判断基準やノウハウが文書になっていません。AIに学習させたい知識の多くが、実はどこにも書かれていないのです。

4. ノイズが多い

議事録に雑談が混ざっている、メールスレッドに署名や免責事項が繰り返し付いている、PDFのヘッダー・フッターが本文と一体で抽出される。こうしたノイズがAIの精度を下げます。

データ準備の実務ステップ

ステップ1: データの棚卸し

まず「何のデータがどこにあるか」を整理します。

  • 対象業務で使われている文書・データの一覧を作る
  • 各データの所在(ファイルサーバー・SharePoint・kintone・紙等)を記録
  • 各データの形式・件数・更新頻度・管理者を記録
  • 「AIに読ませたいデータ」と「不要なデータ」を仕分ける

業務プロセスを整理すると、どの工程でどのデータが使われているかが見えやすくなります。

ステップ2: データクリーニング

AIに読ませるデータを「使える品質」に引き上げます。

  • 重複排除: 同じ文書の複数バージョンが残っている場合、最新版だけを残す
  • 表記統一: 「お客様」「顧客」「クライアント」のような表記揺れを統一する
  • ノイズ除去: メール署名、PDF のヘッダー/フッター、空白ページなどを除去
  • 構造化: 表形式のデータはCSV/JSON に、文書は見出し付きのテキストに変換

ステップ3: メタデータの付与

AIが文書を正しく検索・参照するために、メタデータを付与します。

  • 文書の作成日・更新日・有効期限
  • 文書のカテゴリ・部門・業務領域
  • 機密度レベル(誰がアクセスできるか)
  • 関連する他の文書へのリンク

ステップ4: 継続的な更新運用の設計

データの整備は一度やって終わりではありません。業務マニュアルが更新されたら、AIのナレッジベースも更新する運用を設計します。「誰が・いつ・どうやって更新するか」をルール化しておかないと、AIの回答が徐々に古くなります。

動画・音声データの活用

社内の研修動画、レクチャー会の録画、会議の録音なども貴重なデータソースです。文字起こしツール(Whisper等)でテキスト化すれば、RAGのナレッジベースに組み込めます。

ただし、文字起こしデータはそのままでは品質が低い(話し言葉の冗長さ、固有名詞の認識ミス等)ため、以下の前処理が必要です。

  • 固有名詞の修正(社名・製品名・専門用語)
  • 不要な発話(「えー」「あのー」)の除去
  • 話題ごとのセクション分割と見出し付け
  • 図表を参照している箇所への補足情報の追加

Beekleの対応

Beekleでは、RAGシステムの構築においてデータの前処理工程を見積もりに明示的に含めます。「AIを作る」だけでなく「AIに食わせるデータを使える状態にする」工程を省略しません。PDF資料や動画の文字起こしデータの取り込みから、ベクトルDB化まで一貫して対応します。

よくある質問(FAQ)

Q. データの整備にどのくらいの工数がかかりますか?

A. 対象データの量と品質によりますが、特定業務に絞ったデータ整備(棚卸し〜クリーニング〜メタデータ付与)であれば、通常2〜4週間程度です。全社横断のデータ統合はより大きなプロジェクトになります。ゼロスタート(PoC開発)ではまず最小限のデータで始め、効果を確認しながら対象データを広げていきます。

Q. 紙の資料しかない場合はどうすればよいですか?

A. OCR(光学文字認識)でデジタル化してからAIに取り込めます。最新のOCR技術は手書き文字や表も高精度で認識できます。ただし、スキャン品質が悪い場合は認識精度が落ちるため、原本の状態確認と必要に応じた再スキャンが必要です。

Q. 社員の暗黙知をどうやってAI用のデータにすればよいですか?

A. ベテラン社員へのインタビューをもとに、判断基準やノウハウを文書化する工程が必要です。「この場合はこう判断する」というルールを整理し、FAQ形式やナレッジベース形式で構造化します。この工程をAI構築プロジェクトに組み込むことで、属人化の解消とAI活用を同時に進められます。

Beekleにご相談ください

Beekleでは、生成AI/CDP/業務システムの企画・要件定義・開発・運用までワンストップで支援しています。「何を作れば成功か」の整理、検証フェーズの設計、本番化判断まで、発注側の判断材料が揃うように伴走します。費用感の概算だけでも歓迎です。

お問い合わせはこちら

関連記事

「生成AIの活用と発注」カテゴリの他の記事

AI導入で「コストが増えただけ」にならないためのKPI再設計術

2026/5/27
読む

経営から「AI入れて」と言われた情シスが、最初の1週間にやるべき5つのこと

2026/5/27
読む

社内ナレッジAIチャットボットの作り方|精度の高い回答システムを構築する実践ガイド

2026/5/27
読む

AIプロジェクトが進まない|ゼロスタートでデモから始め、アジャイル的に改善する方法

2026/5/27
読む

組織体制がAI導入を阻む|経営者がAI前提の業務を主導しなければ変わらない

2026/5/27
読む

既存システムの制約でAIが導入できない|基幹システムを見直した方が早いケースの判断軸

2026/5/27
読む

経営者がAI導入を理解しない|As-Is/To-Be可視化と費用対効果で説得する方法

2026/5/27
読む

「コストがかけられない」なら最低限から始める|ゼロスタートで生成AI導入のリスクを最小化する方法

2026/5/27
読む

生成AIの業務効果をどう測るか|「効果が見えない」を防ぐROI測定と指標設計

2026/5/27
読む

生成AI導入のセキュリティとプライバシー対策|業務利用で押さえるべきリスクと対処法

2026/5/27
読む

「データ基盤が整っていない」は生成AI導入を諦める理由にならない|CDP・データクリーニングから始める現実解

2026/5/27
読む

生成AIの回答精度を業務レベルに引き上げる方法|GraphRAGとハルシネーション対策の実践ガイド

2026/5/27
読む

プロンプトエンジニアリングとは|AI受託発注時に発注先のスキルを見極めるための基礎知識

2026/5/1
読む

生成AIガイドラインの作り方|AI案件を発注する前に社内で整備すべき利用ルール

2026/5/1
読む

AIエージェントの作り方|業務適用までの実装と運用設計

2026/5/1
読む

AIエージェントを発注検討者が知っておくべきこと|中堅企業の判断軸と発注前チェック

2026/5/1
読む

生成AI駆動開発(AIファースト開発)とは|中堅企業のシステム開発はこう変わる

2026/5/1
読む

BigQuery × MCPで生成AIから業務データを直接見る|ChatGPTがSQLを書いて答える仕組み

2026/5/1
読む

MCPを活用したAI案件の発注前に押さえること|活用シナリオ・体制・リスク

2026/5/1
読む

生成AIをどう選び、どう契約するか|1社固定 vs 複数モデル使い分けの戦略

2026/5/1
読む

この知識を実践してみませんか?

現状(As-Is)と改善後(To-Be)を可視化して改善点を発見できます。

次の工程で使うツール: 要件を3軸で評価して「作る/後回し/作らない」を整理できます

いきなり試すのが不安な方は 先に相談する こともできます。