「社内データを学習させた賢いAI」の幻想
「社内のマニュアルやFAQをChatGPTに読ませれば、社員の質問に何でも答えてくれるアシスタントが作れる」――生成AIブームの初期に多くの企業が描いたこのビジョンは、半分正しく、半分間違っていました。
実際に多くの企業が「社内資料を読んで答えるAI」(業界用語で RAG と呼ばれる仕組み)を構築してきましたが、結果は二極化しています。
- 一部の企業: 月数千件の質問が処理され、人事・情シス・営業の問い合わせ対応が大きく削減
- 別の企業: 公開後3か月で利用率が10%を切り、社内で「使えないシステム」扱いに
何が分けたのか。本記事では、複数事例から見える典型的な成功・失敗パターンを抽象化して整理します。特定の企業を指す内容ではなく、共通パターンとしてまとめています。
失敗パターン1: 「とりあえず全社資料を入れた」型
最もよくある失敗パターンです。
何が起きるか
社内のあらゆる資料(規定集、議事録、製品仕様、過去案件の提案書、メールのアーカイブなど)を片っ端から取り込み、「社員が何を聞いても答えられる」想定で構築する。公開後、次のような問題が連鎖します。
典型的な症状
- 古い規定(廃止済み)と新しい規定が混在し、矛盾した回答が返る
- 社外秘の情報まで誰でも参照できる状態になる
- 関係ない過去案件の議事録がヒットして、回答の精度が下がる
- データを保管するクラウド費用が想定の3倍に膨らむ
- 「使えない」というレッテルが貼られ、徐々に使われなくなる
根本原因
「データは多ければ多いほど賢くなる」という誤解です。社内資料を読むAIでは、検索結果がそのまま回答の元になるので、関係ない情報が混ざるほど精度が下がります。
成功パターンとの違い
成功する社内AIは、最初から対象業務と取り込む資料を絞ります。
- 「人事問い合わせの自動応答」なら、人事規定・FAQ・育休/有給ハンドブックだけ
- 「営業の提案書作成支援」なら、製品仕様・過去の類似提案書・価格表だけ
- 「情シスの障害対応」なら、運用手順書・既知不具合一覧・直近1年の障害事例だけ
範囲を絞ることで精度が上がり、利用者にも「ここで質問すれば答えが出る」と認知されやすくなります。
失敗パターン2: 「精度測定をやらずに公開した」型
検証で動いたのを「これで行けそう」と判断し、テストデータを作らずに本番公開したケース。
何が起きるか
- どの質問は答えられて、どの質問は答えられないか、誰も把握していない
- 利用者が間違った回答をもらっても、運営側が気づかない
- 「使ってみたら不正確だった」という社内クチコミが広まり、3か月で利用率が低下
- 改善しようにも、「どこから直せば精度が上がるか」が分からない
根本原因
精度を測るためのテストデータがないと、改善のループが回りません。社内AIは「公開して終わり」ではなく、運用しながら継続的に精度を上げ続けるタイプのシステムです。
成功パターンとの違い
成功する社内AIは、公開前に テストデータ(質問と期待される回答のペアを30〜100件)を作っています。
- 業務担当者と一緒に「実際によく来る質問」を抽出
- 各質問に対する正解と、根拠資料の対応関係を明記
- 公開後、毎月このテストデータで精度を測り、劣化を検知
- ユーザー評価(👍/👎)も収集し、悪かった質問をテストデータに追加
テストデータを作るのは地味で時間のかかる作業ですが、これがないと改善ができません。
失敗パターン3: 「全社員に一斉公開した」型
最初から全社員(数百〜数千人)に同時公開し、初日に質問が殺到して問題が顕在化するケース。
何が起きるか
- 生成AI利用料が初週で月額予算を超過
- 想定外の質問が多数来て、精度の低い回答が広まる
- サーバー負荷で応答が遅延、ユーザー体験が悪化
- 利用者の不満が初動で爆発し、リカバリ困難に
根本原因
社内AIは、ユーザーの使い方によって精度・コスト・負荷が大きく変動します。最初から全公開すると変動の予測ができず、想定外が頻発します。
成功パターンとの違い
成功する社内AIは、段階的に公開しています。
- クローズドβ: 5〜10名の業務担当者に限定公開、フィードバックを密に収集
- 部署限定リリース: 特定の1部署(例: 情シスの問い合わせ対応)に限定、運用ノウハウ蓄積
- 対象拡大: テストデータの精度が80%を超えたら、隣接部署に拡大
- 全社展開: 利用ガイドライン整備・FAQ整備の上で全社公開
「使われない」リスクを下げるためには、最初は小さく始めて、評価しながら広げます。
成功パターン: 「業務フローに組み込まれている」型
成功する社内AIアシスタントには、共通する特徴があります。それは 既存の業務フローの中で使われていることです。
具体例
- 営業が提案書を作るとき、Salesforce上のボタンから提案書ドラフトを生成する
- 情シスへの問い合わせをSlackで送ると、AIが一次回答してから人間にエスカレーション
- 経理処理で領収書をアップすると、AIが仕訳候補を提示して人間が承認
- 顧客対応の議事録を録音→AIが要約・タスク抽出→CRMに自動登録
「ChatGPTのようなチャット画面を社内に置く」だけだと、利用者は使い方が分からず徐々に離れます。今ある業務ツール・業務フローの中に埋め込むことで、自然に使われ続けます。
成功パターン: 「専任担当が継続改善している」型
もう一つの共通点は、公開後も 専任担当が改善し続けていることです。
継続改善で何をしているか
- 毎週: ユーザー評価(👍/👎)を確認、悪い回答の原因分析
- 毎月: テストデータで精度測定、劣化があれば原因調査
- 四半期: 新しい資料の追加、廃止資料の削除、指示文の改善
- 半期: 使う生成AIの世代切り替え検討(コスト・精度の見直し)
「公開したら勝手に育っていく」システムではないので、運用フェーズの工数を最初から計画しておく必要があります。社内なら週0.5〜1名、外部委託なら月20〜50万円程度が目安です。
導入を成功させる4つの原則
ここまでの成功・失敗パターンから抽出される原則は次の4つです。
- 対象業務と取り込む資料を絞る: 「全社資料を入れる」より「特定業務に必要な厳選資料だけ入れる」
- テストデータを作る: 検証段階で、業務担当者と30〜100件のテストデータを作る
- 段階的に公開: クローズドβ → 部署限定 → 全社、の3段階で
- 業務フローに埋め込む: 独立したチャット画面ではなく、既存ツール・既存フローに組み込む
これらは技術選定よりずっと重要です。どの製品を使うかより、テストデータを作るかどうかで成否が決まります。
まとめ: 成否を分けるのは「運用設計」
社内AIアシスタント導入の成否を分けるのは、技術ではなく 運用設計 です。
- 取り込む資料の範囲をどう絞るか
- 精度をどう測り続けるか
- どの業務フローに埋め込むか
- 誰が継続改善するか
これらが事前に設計されていれば、技術選定はあとからどうにでもなります。逆に、技術だけ決まっても運用が決まっていないと、公開3か月後には誰にも使われなくなります。
Beekleにご相談ください
Beekleでは、生成AI/CDP/業務システムの企画・要件定義・開発・運用までワンストップで支援しています。「何を作れば成功か」の整理、検証フェーズの設計、本番化判断まで、発注側の判断材料が揃うように伴走します。費用感の概算だけでも歓迎です。