# 生成AIの学習データをどう用意するか|社内データの棚卸し・品質管理・前処理の実務ガイド
「データはあるが、AIに使える状態ではない」問題
生成AI活用の課題調査で、25.5%の企業が「追加学習させるデータの用意と品質の問題」を挙げています。社内にデータ自体は存在するのに、AIに読ませられる品質・形式になっていないのが実態です。
生成AIの回答精度は入力データの品質に直結します。「ゴミを入れればゴミが出る(Garbage In, Garbage Out)」は、AI活用においても不変の原則です。
社内データによくある品質問題
1. フォーマットがバラバラ
同じ種類の文書でも、Word・Excel・PDF・紙のスキャン・メール本文・チャットログと形式が統一されていません。10年前のWord文書と最新のNotionページが混在している状態では、AIが一括で読み込むことは困難です。
2. 古いデータと最新データが混在
社内マニュアルの2019年版と2025年版が両方残っていて、AIがどちらを参照すべきか判別できません。「この規程は最新版です」というメタ情報が付いていないことがほとんどです。
3. 暗黙知が文書化されていない
ベテラン社員の頭の中にある判断基準やノウハウが文書になっていません。AIに学習させたい知識の多くが、実はどこにも書かれていないのです。
4. ノイズが多い
議事録に雑談が混ざっている、メールスレッドに署名や免責事項が繰り返し付いている、PDFのヘッダー・フッターが本文と一体で抽出される。こうしたノイズがAIの精度を下げます。
データ準備の実務ステップ
ステップ1: データの棚卸し
まず「何のデータがどこにあるか」を整理します。
- 対象業務で使われている文書・データの一覧を作る
- 各データの所在(ファイルサーバー・SharePoint・kintone・紙等)を記録
- 各データの形式・件数・更新頻度・管理者を記録
- 「AIに読ませたいデータ」と「不要なデータ」を仕分ける
業務プロセスを整理すると、どの工程でどのデータが使われているかが見えやすくなります。
ステップ2: データクリーニング
AIに読ませるデータを「使える品質」に引き上げます。
- 重複排除: 同じ文書の複数バージョンが残っている場合、最新版だけを残す
- 表記統一: 「お客様」「顧客」「クライアント」のような表記揺れを統一する
- ノイズ除去: メール署名、PDF のヘッダー/フッター、空白ページなどを除去
- 構造化: 表形式のデータはCSV/JSON に、文書は見出し付きのテキストに変換
ステップ3: メタデータの付与
AIが文書を正しく検索・参照するために、メタデータを付与します。
- 文書の作成日・更新日・有効期限
- 文書のカテゴリ・部門・業務領域
- 機密度レベル(誰がアクセスできるか)
- 関連する他の文書へのリンク
ステップ4: 継続的な更新運用の設計
データの整備は一度やって終わりではありません。業務マニュアルが更新されたら、AIのナレッジベースも更新する運用を設計します。「誰が・いつ・どうやって更新するか」をルール化しておかないと、AIの回答が徐々に古くなります。
動画・音声データの活用
社内の研修動画、レクチャー会の録画、会議の録音なども貴重なデータソースです。文字起こしツール(Whisper等)でテキスト化すれば、RAGのナレッジベースに組み込めます。
ただし、文字起こしデータはそのままでは品質が低い(話し言葉の冗長さ、固有名詞の認識ミス等)ため、以下の前処理が必要です。
- 固有名詞の修正(社名・製品名・専門用語)
- 不要な発話(「えー」「あのー」)の除去
- 話題ごとのセクション分割と見出し付け
- 図表を参照している箇所への補足情報の追加
Beekleの対応
Beekleでは、RAGシステムの構築においてデータの前処理工程を見積もりに明示的に含めます。「AIを作る」だけでなく「AIに食わせるデータを使える状態にする」工程を省略しません。PDF資料や動画の文字起こしデータの取り込みから、ベクトルDB化まで一貫して対応します。
よくある質問(FAQ)
Q. データの整備にどのくらいの工数がかかりますか?
A. 対象データの量と品質によりますが、特定業務に絞ったデータ整備(棚卸し〜クリーニング〜メタデータ付与)であれば、通常2〜4週間程度です。全社横断のデータ統合はより大きなプロジェクトになります。ゼロスタート(PoC開発)ではまず最小限のデータで始め、効果を確認しながら対象データを広げていきます。
Q. 紙の資料しかない場合はどうすればよいですか?
A. OCR(光学文字認識)でデジタル化してからAIに取り込めます。最新のOCR技術は手書き文字や表も高精度で認識できます。ただし、スキャン品質が悪い場合は認識精度が落ちるため、原本の状態確認と必要に応じた再スキャンが必要です。
Q. 社員の暗黙知をどうやってAI用のデータにすればよいですか?
A. ベテラン社員へのインタビューをもとに、判断基準やノウハウを文書化する工程が必要です。「この場合はこう判断する」というルールを整理し、FAQ形式やナレッジベース形式で構造化します。この工程をAI構築プロジェクトに組み込むことで、属人化の解消とAI活用を同時に進められます。
Beekleでは、生成AI/CDP/業務システムの企画・要件定義・開発・運用までワンストップで支援しています。「何を作れば成功か」の整理、検証フェーズの設計、本番化判断まで、発注側の判断材料が揃うように伴走します。費用感の概算だけでも歓迎です。