RAGの精度を評価する方法｜評価指標・正解データセット・RAGASと運用でのドリフト検知

RAG（検索拡張生成）は、作った直後に良くても、運用のうちに精度が静かに落ちます。資料が増えて検索がぶれる、質問の傾向が変わる、といった要因です。だから「一度作って終わり」にせず、精度を測って改善し続ける評価の仕組みが要ります。この記事では、何を測るか、正解データセットの作り方、自動評価と人手評価の使い分け、運用での劣化（ドリフト）の見つけ方を、実装者向けにまとめます。

なぜRAGは評価が必要なのか

RAGの品質は、感覚では管理できません。「なんとなく良くなった気がする」で運用すると、ある日から特定の質問に答えられなくなっていても気づけない。評価を数値で回すと、変更が改善なのか改悪なのかを判定でき、劣化を早期に検知できます。

何を測るか（検索と生成に分ける）

RAGは検索（Retrieval）と生成（Generation）の2段構えなので、評価もこの2つに分けると原因を切り分けられます。

検索の精度：質問に対して、正しい根拠となる文書を取り出せているか。ここがずれていると、生成がどれだけ賢くても正答は出ません。
生成の精度：取り出した文書に忠実に、質問へ的確に答えているか。検索は当たっているのに、AIが資料を無視して作文していないか。

回答が間違っていたとき、この切り分けがあれば「検索が悪いのか、生成が悪いのか」をすぐ特定でき、直す場所が決まります。

評価指標（RAGASなどの観点）

RAGの自動評価で広く使われるRAGASのようなフレームワークは、上の切り分けを具体的な指標に落とし込んでいます。代表的な観点は次のとおりです。

忠実性（Faithfulness）：回答が、取り出した文書の内容に忠実か。資料にない主張を作っていないかを見る。ハルシネーションの検知に効く。
回答の関連性（Answer Relevancy）：回答が質問に的確に答えているか。的外れや冗長を測る。現行のRAGASではResponse Relevancyと呼びます。
文脈の適合率（Context Precision）：取り出した文書のうち、実際に回答へ役立つものの割合。ノイズを拾いすぎていないか。
文脈の再現率（Context Recall）：回答に必要な情報を、検索が取りこぼしていないか。

これらをLLMに判定させることで、人手をかけずに大量の質問を継続的に採点できます。ただし自動評価はあくまで目安で、最終的な妥当性は人の確認と併用します。

正解データセット（golden dataset）を作る

評価のもとになるのが、正解つきの質問集（golden dataset）です。実際の業務で出る質問を50件から100件ほど集め、それぞれに「正しい回答」と「根拠になる文書」を人が用意します。

実際の問い合わせから採る：想像で作らず、現場に来た本物の質問を使う。傾向が実運用と合う。
難しい質問を混ぜる：関係をたどる、複数資料をまたぐ、答えが存在しない、といった意地悪な質問を入れる。ここで差が出る。
根拠を紐づける：正解だけでなく、どの文書を根拠にすべきかも記録する。検索の精度を測るのに使う。

このデータセットで、変更のたびにスコアを取り直せば、改善か改悪かを毎回判定できます。作り方の全体像はナレッジグラフエージェントの作り方、精度を上げる具体策は社内ナレッジAIの精度を上げる作り方にまとめています。

人手評価と自動評価を併用する

自動評価は速く安く回せますが、機微な正しさや業務固有の妥当性は人でないと判断できません。現実的なのは、自動評価で全体を毎回スクリーニングし、スコアが落ちた質問やサンプルだけを人が精査する分担です。低評価の回答を集めて原因を分析し、資料の追加や検索の調整に回します。

運用でのドリフト検知

本番に載せてからが本番です。資料の更新や質問傾向の変化で、精度は少しずつ動きます。golden datasetでの定期的な再評価をバッチで回し、スコアが基準を下回ったら通知する。この仕組みがあると、劣化を人が気づく前に捉えられます。ベクトルRAGとGraphRAGの精度の違いはGraphRAGとは？ベクトルRAGとの違い、回答精度の底上げは生成AIの回答精度を業務レベルに引き上げる方法で扱っています。

よくある質問（FAQ）

Q. RAGの評価とは何を評価するのですか？

A. 検索が正しい根拠を取り出せているか（検索の精度）と、その根拠に忠実に質問へ答えているか（生成の精度）の2つを評価します。分けて測ることで、誤答の原因が検索と生成のどちらにあるかを特定できます。

Q. RAGASのような自動評価だけで十分ですか？

A. 自動評価は大量の質問を継続的に採点できて便利ですが、目安として扱います。業務固有の妥当性や機微な正しさは人の確認が要るため、自動評価でスクリーニングし、低評価だけ人が精査する併用が現実的です。

Q. 正解データセットはどれくらいの規模が必要ですか？

A. まずは実際の業務で出た質問を50件から100件ほど集め、正解と根拠文書を用意すれば始められます。関係をたどる質問や答えの存在しない質問など、難しいケースを混ぜると差が見えやすくなります。

Q. 運用後に精度が落ちるのをどう防ぎますか？

A. 正解データセットでの再評価を定期的にバッチで回し、スコアが基準を下回ったら通知する仕組みを入れます。資料の更新や質問傾向の変化による劣化を、人が気づく前に検知できます。

Beekleにご相談ください Beekleでは、生成AI／CDP／業務システムの企画・要件定義・開発・運用までワンストップで支援しています。「何を作れば成功か」の整理、検証フェーズの設計、本番化判断まで、発注側の判断材料が揃うように伴走します。費用感の概算だけでも歓迎です。お問い合わせはこちら

RAGの精度を評価する方法｜評価指標・正解データセット・RAGASと運用でのドリフト検知

なぜRAGは評価が必要なのか

何を測るか（検索と生成に分ける）

評価指標（RAGASなどの観点）

正解データセット（golden dataset）を作る

人手評価と自動評価を併用する

運用でのドリフト検知

よくある質問（FAQ）

Q. RAGの評価とは何を評価するのですか？

Q. RAGASのような自動評価だけで十分ですか？

Q. 正解データセットはどれくらいの規模が必要ですか？

Q. 運用後に精度が落ちるのをどう防ぎますか？

関連記事

Neo4j Community Editionでマルチテナントを安全に実装する｜アプリ層の強制フィルタとCI検証

ナレッジグラフエージェントの作り方｜設計・検索・検証・運用の実装ガイド

GraphRAGの精度はデータ抽出で決まる｜PDF・LLM抽出の限界と、人手で埋める工程

GraphRAGとは？ベクトルRAGとの違いと、根拠付き回答を実現する実装

社内ナレッジAIの精度を上げる作り方｜RAGチャットボットの限界とナレッジグラフエージェント設計

BigQuery × MCPで生成AIから業務データを直接見る｜ChatGPTがSQLを書いて答える仕組み

EARS×Gherkin｜要件定義からデモ／シナリオテストまでを生成AIで一直線につなぐ

Gherkin入門｜Given/When/Thenでシナリオテストを書く・読むための完全ガイド

EARS記法とは？要件定義の曖昧さを排除する5パターンと書き方の実例

この技術、Beekleに相談しませんか？