RAGの精度を評価する方法|評価指標・正解データセット・RAGASと運用でのドリフト検知

RAG(検索拡張生成)は、作った直後に良くても、運用のうちに精度が静かに落ちます。資料が増えて検索がぶれる、質問の傾向が変わる、といった要因です。だから「一度作って終わり」にせず、精度を測って改善し続ける評価の仕組みが要ります。この記事では、何を測るか、正解データセットの作り方、自動評価と人手評価の使い分け、運用での劣化(ドリフト)の見つけ方を、実装者向けにまとめます。

なぜRAGは評価が必要なのか

RAGの品質は、感覚では管理できません。「なんとなく良くなった気がする」で運用すると、ある日から特定の質問に答えられなくなっていても気づけない。評価を数値で回すと、変更が改善なのか改悪なのかを判定でき、劣化を早期に検知できます。

何を測るか(検索と生成に分ける)

RAGは検索(Retrieval)と生成(Generation)の2段構えなので、評価もこの2つに分けると原因を切り分けられます。

  • 検索の精度:質問に対して、正しい根拠となる文書を取り出せているか。ここがずれていると、生成がどれだけ賢くても正答は出ません。
  • 生成の精度:取り出した文書に忠実に、質問へ的確に答えているか。検索は当たっているのに、AIが資料を無視して作文していないか。

回答が間違っていたとき、この切り分けがあれば「検索が悪いのか、生成が悪いのか」をすぐ特定でき、直す場所が決まります。

評価指標(RAGASなどの観点)

RAGの自動評価で広く使われるRAGASのようなフレームワークは、上の切り分けを具体的な指標に落とし込んでいます。代表的な観点は次のとおりです。

  • 忠実性(Faithfulness):回答が、取り出した文書の内容に忠実か。資料にない主張を作っていないかを見る。ハルシネーションの検知に効く。
  • 回答の関連性(Answer Relevancy):回答が質問に的確に答えているか。的外れや冗長を測る。
  • 文脈の適合率(Context Precision):取り出した文書のうち、実際に回答へ役立つものの割合。ノイズを拾いすぎていないか。
  • 文脈の再現率(Context Recall):回答に必要な情報を、検索が取りこぼしていないか。

これらをLLMに判定させることで、人手をかけずに大量の質問を継続的に採点できます。ただし自動評価はあくまで目安で、最終的な妥当性は人の確認と併用します。

正解データセット(golden dataset)を作る

評価のもとになるのが、正解つきの質問集(golden dataset)です。実際の業務で出る質問を50件から100件ほど集め、それぞれに「正しい回答」と「根拠になる文書」を人が用意します。

  • 実際の問い合わせから採る:想像で作らず、現場に来た本物の質問を使う。傾向が実運用と合う。
  • 難しい質問を混ぜる:関係をたどる、複数資料をまたぐ、答えが存在しない、といった意地悪な質問を入れる。ここで差が出る。
  • 根拠を紐づける:正解だけでなく、どの文書を根拠にすべきかも記録する。検索の精度を測るのに使う。

このデータセットで、変更のたびにスコアを取り直せば、改善か改悪かを毎回判定できます。作り方の全体像はナレッジグラフエージェントの作り方、精度を上げる具体策は社内ナレッジAIの精度を上げる作り方にまとめています。

人手評価と自動評価を併用する

自動評価は速く安く回せますが、機微な正しさや業務固有の妥当性は人でないと判断できません。現実的なのは、自動評価で全体を毎回スクリーニングし、スコアが落ちた質問やサンプルだけを人が精査する分担です。低評価の回答を集めて原因を分析し、資料の追加や検索の調整に回します。

運用でのドリフト検知

本番に載せてからが本番です。資料の更新や質問傾向の変化で、精度は少しずつ動きます。golden datasetでの定期的な再評価をバッチで回し、スコアが基準を下回ったら通知する。この仕組みがあると、劣化を人が気づく前に捉えられます。ベクトルRAGとGraphRAGの精度の違いはGraphRAGとは?ベクトルRAGとの違い、回答精度の底上げは生成AIの回答精度を業務レベルに引き上げる方法で扱っています。

よくある質問(FAQ)

Q. RAGの評価とは何を評価するのですか?

A. 検索が正しい根拠を取り出せているか(検索の精度)と、その根拠に忠実に質問へ答えているか(生成の精度)の2つを評価します。分けて測ることで、誤答の原因が検索と生成のどちらにあるかを特定できます。

Q. RAGASのような自動評価だけで十分ですか?

A. 自動評価は大量の質問を継続的に採点できて便利ですが、目安として扱います。業務固有の妥当性や機微な正しさは人の確認が要るため、自動評価でスクリーニングし、低評価だけ人が精査する併用が現実的です。

Q. 正解データセットはどれくらいの規模が必要ですか?

A. まずは実際の業務で出た質問を50件から100件ほど集め、正解と根拠文書を用意すれば始められます。関係をたどる質問や答えの存在しない質問など、難しいケースを混ぜると差が見えやすくなります。

Q. 運用後に精度が落ちるのをどう防ぎますか?

A. 正解データセットでの再評価を定期的にバッチで回し、スコアが基準を下回ったら通知する仕組みを入れます。資料の更新や質問傾向の変化による劣化を、人が気づく前に検知できます。

Beekleにご相談ください Beekleでは、生成AI/CDP/業務システムの企画・要件定義・開発・運用までワンストップで支援しています。「何を作れば成功か」の整理、検証フェーズの設計、本番化判断まで、発注側の判断材料が揃うように伴走します。費用感の概算だけでも歓迎です。 お問い合わせはこちら

この技術、Beekleに相談しませんか?

企画・要件定義・開発・運用まで、発注側の判断材料が揃うように無料で伴走します。

開発リソースの逼迫・難航案件の立て直し・AI活用開発の知見をお探しの開発会社/SIer様のご相談も承ります