RAG(検索拡張生成)は、作った直後に良くても、運用のうちに精度が静かに落ちます。資料が増えて検索がぶれる、質問の傾向が変わる、といった要因です。だから「一度作って終わり」にせず、精度を測って改善し続ける評価の仕組みが要ります。この記事では、何を測るか、正解データセットの作り方、自動評価と人手評価の使い分け、運用での劣化(ドリフト)の見つけ方を、実装者向けにまとめます。
なぜRAGは評価が必要なのか
RAGの品質は、感覚では管理できません。「なんとなく良くなった気がする」で運用すると、ある日から特定の質問に答えられなくなっていても気づけない。評価を数値で回すと、変更が改善なのか改悪なのかを判定でき、劣化を早期に検知できます。
何を測るか(検索と生成に分ける)
RAGは検索(Retrieval)と生成(Generation)の2段構えなので、評価もこの2つに分けると原因を切り分けられます。
- 検索の精度:質問に対して、正しい根拠となる文書を取り出せているか。ここがずれていると、生成がどれだけ賢くても正答は出ません。
- 生成の精度:取り出した文書に忠実に、質問へ的確に答えているか。検索は当たっているのに、AIが資料を無視して作文していないか。
回答が間違っていたとき、この切り分けがあれば「検索が悪いのか、生成が悪いのか」をすぐ特定でき、直す場所が決まります。
評価指標(RAGASなどの観点)
RAGの自動評価で広く使われるRAGASのようなフレームワークは、上の切り分けを具体的な指標に落とし込んでいます。代表的な観点は次のとおりです。
- 忠実性(Faithfulness):回答が、取り出した文書の内容に忠実か。資料にない主張を作っていないかを見る。ハルシネーションの検知に効く。
- 回答の関連性(Answer Relevancy):回答が質問に的確に答えているか。的外れや冗長を測る。現行のRAGASではResponse Relevancyと呼びます。
- 文脈の適合率(Context Precision):取り出した文書のうち、実際に回答へ役立つものの割合。ノイズを拾いすぎていないか。
- 文脈の再現率(Context Recall):回答に必要な情報を、検索が取りこぼしていないか。
これらをLLMに判定させることで、人手をかけずに大量の質問を継続的に採点できます。ただし自動評価はあくまで目安で、最終的な妥当性は人の確認と併用します。
正解データセット(golden dataset)を作る
評価のもとになるのが、正解つきの質問集(golden dataset)です。実際の業務で出る質問を50件から100件ほど集め、それぞれに「正しい回答」と「根拠になる文書」を人が用意します。
- 実際の問い合わせから採る:想像で作らず、現場に来た本物の質問を使う。傾向が実運用と合う。
- 難しい質問を混ぜる:関係をたどる、複数資料をまたぐ、答えが存在しない、といった意地悪な質問を入れる。ここで差が出る。
- 根拠を紐づける:正解だけでなく、どの文書を根拠にすべきかも記録する。検索の精度を測るのに使う。
このデータセットで、変更のたびにスコアを取り直せば、改善か改悪かを毎回判定できます。作り方の全体像はナレッジグラフエージェントの作り方、精度を上げる具体策は社内ナレッジAIの精度を上げる作り方にまとめています。
人手評価と自動評価を併用する
自動評価は速く安く回せますが、機微な正しさや業務固有の妥当性は人でないと判断できません。現実的なのは、自動評価で全体を毎回スクリーニングし、スコアが落ちた質問やサンプルだけを人が精査する分担です。低評価の回答を集めて原因を分析し、資料の追加や検索の調整に回します。
運用でのドリフト検知
本番に載せてからが本番です。資料の更新や質問傾向の変化で、精度は少しずつ動きます。golden datasetでの定期的な再評価をバッチで回し、スコアが基準を下回ったら通知する。この仕組みがあると、劣化を人が気づく前に捉えられます。ベクトルRAGとGraphRAGの精度の違いはGraphRAGとは?ベクトルRAGとの違い、回答精度の底上げは生成AIの回答精度を業務レベルに引き上げる方法で扱っています。
よくある質問(FAQ)
Q. RAGの評価とは何を評価するのですか?
A. 検索が正しい根拠を取り出せているか(検索の精度)と、その根拠に忠実に質問へ答えているか(生成の精度)の2つを評価します。分けて測ることで、誤答の原因が検索と生成のどちらにあるかを特定できます。
Q. RAGASのような自動評価だけで十分ですか?
A. 自動評価は大量の質問を継続的に採点できて便利ですが、目安として扱います。業務固有の妥当性や機微な正しさは人の確認が要るため、自動評価でスクリーニングし、低評価だけ人が精査する併用が現実的です。
Q. 正解データセットはどれくらいの規模が必要ですか?
A. まずは実際の業務で出た質問を50件から100件ほど集め、正解と根拠文書を用意すれば始められます。関係をたどる質問や答えの存在しない質問など、難しいケースを混ぜると差が見えやすくなります。
Q. 運用後に精度が落ちるのをどう防ぎますか?
A. 正解データセットでの再評価を定期的にバッチで回し、スコアが基準を下回ったら通知する仕組みを入れます。資料の更新や質問傾向の変化による劣化を、人が気づく前に検知できます。
Beekleにご相談ください Beekleでは、生成AI/CDP/業務システムの企画・要件定義・開発・運用までワンストップで支援しています。「何を作れば成功か」の整理、検証フェーズの設計、本番化判断まで、発注側の判断材料が揃うように伴走します。費用感の概算だけでも歓迎です。