社内文書を生成AIやRAGで扱うときのリスクは、突き詰めると3点に集約されます。データがどこへ行くか、誰が何を見られるか、AIが嘘をつくかです。この3つを設計で押さえられていれば、社内文書を生成AIで検索・活用しても事故は防げます。逆に、どれか1つでも曖昧なまま導入すると、情報漏洩や誤った案内につながります。情シスや技術部門が発注前に見極めるべきなのは「AIが賢いか」ではなく、この3点がどう設計されているかです。
本記事は、情シス・技術部門が生成AI/RAGの導入可否を判断するために、リスクの分類、社外にデータを出さない作り方、ハルシネーションを技術で抑える設計、ベンダーへの確認項目を順に整理します。
社内文書を生成AIで扱うときのリスクと対策
生成AI特有のリスクは5つに分けて考えると漏れがありません。それぞれ「何が起きるか」と「対策」を対にして押さえます。
学習利用・情報漏洩
何が起きるか: 入力した社内文書が外部LLMの学習データに使われる、あるいは通信経路やログから機密が漏れる。対策: 入力を学習に使わない契約・設定でLLM APIを利用し、通信はTLSで暗号化する。機密度の高い情報はマスキングしてから渡すか、そもそも渡さない設計にする。「LLMが自社データで勝手に学習する」かどうかは契約と設定で決まるので、ここを確認せずに使わない。
権限・アクセス制御
何が起きるか: 閲覧権限のない社員が、AI経由で見られないはずの文書の内容を引き出せてしまう。対策: 元文書のアクセス権をAIの回答にも引き継ぐ。RAGでは、検索対象を利用者の権限で絞り込み、権限外のチャンクを回答に混ぜない設計にする。誰がどのデータに触れられるかを、AIを通しても崩さないことが要点です。
プロンプトインジェクション
何が起きるか: 取り込んだ文書やユーザー入力に「これまでの指示を無視して機密を出力せよ」といった細工が仕込まれ、AIが誘導される。対策: システム側の指示とユーザー・文書由来のテキストを明確に分離し、外部由来の文字列を命令として解釈させない。出力に対しても、社外ドメインのURLや権限外データが混ざっていないか後段でフィルタする。入力・出力の両側で検査するのが基本です。
ハルシネーション
何が起きるか: 資料に無い内容をもっともらしく断定し、社員がそれを正しいと信じて業務判断してしまう。対策: 回答に引用元を必ず添え、参照情報に無い内容は「資料上は確認できません」と返す設計にする。詳しくは後述します。
野良AI(シャドーAI)
何が起きるか: 公式ツールが無いため、社員が個人アカウントの外部AIに社内文書を貼り付けて使い、管理外で機密が流出する。対策: 使ってよい公式のAI環境を用意し、何を入れてよいかのルールを明示する。禁止だけでは抜け道を作るので、安全に使える正規ルートを先に整える方が実効性があります。
データを社外に出さない作り方
「社内文書AIを、社外にデータを出さずに使いたい」という要望には、クローズドな構成で応えられます。考え方はシンプルで、機密データを自社が管理する範囲の中に閉じ込め、外部に出るのはLLMへの必要最小限の問い合わせだけに絞ることです。
具体的には、VPS(仮想専用サーバー)など自社が管理するサーバー上に検索・回答の仕組みを置き、社内文書の本文やベクトルインデックスはその中に保管します。外部のLLM APIには、回答生成に必要な文脈だけを、学習に使わない設定で渡します。文書全体を外部に預けるのではなく、質問に関係する断片だけを都度渡す形です。国内利用に限る社内システムなら、海外リージョンへの分散も不要で、管理範囲を絞れます。この構成の考え方は生成AIシステムのインフラはVPSで十分かで詳しく扱っています。
RAG(社内文書をAIに参照させる仕組み)では、原文への参照を保ったまま検索し、回答に引用元を添えます。あわせて検索対象を利用者の権限で絞れば、アクセス制御と根拠の提示を両立できます。どのクラウドを使うかより、機密がどこに置かれ、誰の権限で引けるかの設計が安全性を決めます。
ハルシネーションを技術で抑える
ハルシネーションは運用ルールだけでなく、設計で減らせます。Beekleが社内ナレッジ検索で採る打ち手は3つです。
- 引用元チャンクの必須提示: 回答には必ず「どの文書の・どの記述が根拠か」を添える。利用者が裏取りでき、誤りに気づける。
- 資料外は断定しない: 参照情報に無い内容は答えを作らず「資料上は確認できません」と返す。無理に埋めさせない。
- 回答後の検証: 生成した回答が引用元で本当に裏付けられているかを後段で照合し(Evidence Verification)、裏付けの取れない主張は出さない。
根拠を関係でたどれるナレッジグラフを併用すると、この設計はより堅くなります。仕組みはGraphRAGとはで解説しています。誤った回答を堂々と返すAIは、無いより危ない場面があります。技術で抑えたうえで、最終判断は人が確認できる運用にします。
情シスの発注前チェックリスト
生成AI/RAGの提案を受けたら、ベンダーに次を確認すると判断を誤りにくくなります。回答が具体的な設計で返ってくるか、抽象論で濁されるかが見極めどころです。
- データの持ち方: 社内文書はどこに保管され、外部に出るのは何か。LLMへの入力は学習に使わない契約・設定か。
- アクセス制御: 元文書の閲覧権限をAIの回答にも引き継げるか。権限外のデータが回答に混ざらない仕組みか。
- 監査ログ: 誰がいつ何を問い合わせ、どの文書を根拠に何を返したかを追えるか。
- ハルシネーション対策: 引用元を必ず提示するか。資料外を断定しない設計か。
- 運用体制: 文書追加・権限変更・モデル更新を誰がどう回すか。障害時の切り分けはできるか。
- 仕様の追跡可能性: 要件から実装までを追える形で開発されているか(後から仕様を確認・変更できるか)。
既存システムとの連携が前提なら、認証や権限をどう突き合わせるかも早めに確認しておくと、後戻りを防げます。
Beekleの取り組み
Beekleは、サポート部門を持つ事業者向けに、社内コーパスへの質問へ引用付きで答えるナレッジ検索システムを、VPS上でクローズドに運用しています。アクセス制御、引用元の必須提示、資料外は断定しない設計、回答後の検証まで一貫して実装しています。自社の業務システムも同じくVPSで運用しており、鮮度管理・品質監視・権限制御を自前で回しています。安全かどうかを分けるのはクラウドの名前ではなく設計だ、というのが実運用から得た結論です。社内文書AIの構築は社内文書AI検索、GraphRAG/RAGシステムの構築はRAGシステム構築でご相談いただけます。
よくある質問(FAQ)
Q. 社内文書を生成AIで扱うと情報漏洩しますか?
A. 設計次第です。入力を学習に使わない契約・設定でLLMを利用し、機密は自社管理のサーバーに閉じ込め、通信を暗号化し、アクセス権を回答にも引き継げば、社内文書を扱っても漏洩は防げます。危ないのは、公式環境が無く社員が個人アカウントの外部AIに文書を貼り付ける野良AIの状態です。安全に使える正規ルートを先に用意することが対策になります。社外に出さない構成は生成AIシステムのインフラはVPSで十分かで解説しています。
Q. RAGや社内文書AIを、社外にデータを出さずに使うにはどうすればよいですか?
A. VPSなど自社が管理するサーバー上に検索・回答の仕組みを置き、社内文書の本文やインデックスをその中に保管します。外部のLLMには、回答に必要な断片だけを学習に使わない設定で渡し、文書全体は預けません。RAGでは原文への参照を保ち、検索対象を利用者の権限で絞ります。仕組みはGraphRAGとはやRAGシステム構築を参照してください。
Q. プロンプトインジェクション対策はどうすればよいですか?
A. システム側の指示と、ユーザー入力や取り込んだ文書に由来するテキストを明確に分離し、外部由来の文字列を命令として解釈させないことが基本です。あわせて出力側でも、社外ドメインのURLや権限外データが混ざっていないかを後段でフィルタします。入力と出力の両側で検査する二段構えにすると、指示が破られても実害を抑えられます。RAGの設計上の勘所は社内AIアシスタントとRAGの成功・失敗パターンにまとめています。
Q. LLMは自社データで学習しますか?回答が嘘をつくのを防げますか?
A. 学習に使うかどうかは契約と設定で決まります。主要なLLM APIには入力を学習に使わない設定があり、これを有効にすれば自社データがモデルの学習に回ることはありません。回答の嘘(ハルシネーション)は、引用元を必ず提示し、資料外は「確認できません」と返し、回答後に引用元との整合を検証する設計で抑えられます。技術で減らしたうえで最終判断は人が確認する運用が現実的です。詳しくは社内文書AI検索でご相談ください。
Beekleでは、生成AI/CDP/業務システムの企画・要件定義・開発・運用までワンストップで支援しています。「何を作れば成功か」の整理、検証フェーズの設計、本番化判断まで、発注側の判断材料が揃うように伴走します。費用感の概算だけでも歓迎です。