WorkHorizon
用語・トレンド解説

RAG評価 RAGAS 使い方完全ガイド 2026 — Faithfulness/Context Precision/LLM-as-a-Judge/DeepEval比較

2026/4/22

SHARE
RA
用語・トレンド解説

RAG評価 RAGAS 使い方完全ガイド 2026 — Faithfulness/Context Precision/LLM-as-a-Judge/DeepEval比較

ARTICLEWork Horizon
W

Work Horizon編集部

2026/4/22 公開

RAG(Retrieval-Augmented Generation/検索拡張生成)をLLMアプリに組み込む企業が急増した2026年、次の課題は「そのRAGは本当に正しい答えを返しているのか」を定量的に測ることになった。ハルシネーション、検索ミス、コンテキスト欠落、順序バイアス——これらは本番運用で初めて気づくと手遅れになるが、開発段階で自動評価のパイプラインを回せば事前に潰せる。中でもRAGAS(Retrieval-Augmented Generation Assessment)は、参照回答(ground truth)不要でRAGを評価できるOSSフレームワークとして2026年時点でRAG評価のデファクト標準となった。原論文はShahul Es, Jithin James, Luis Espinosa-Anke, Steven Schockaert による2023年9月のarXiv:2309.15217「Ragas: Automated Evaluation of Retrieval Augmented Generation」で、以降継続的にメトリクスが拡張されている(最新版2026年1月13日リリース、PyPI公式で公開。2026年のRAG評価エコシステム全体像はPremAI Blog: RAG Evaluation 2026を参照)。本記事では①RAG評価が必要な理由、②RAGASの主要メトリクスと仕組み、③Pythonでの実装手順、④DeepEval・TruLensとの比較、⑤LLM-as-a-Judgeの限界、⑥本番運用での活用パターン——を5分で把握できるよう整理する。関連記事としてLangChain vs LlamaIndex 完全比較 2026Embedding Model 完全比較 2026Dify 使い方完全ガイド 2026AWS Bedrock 使い方完全ガイド 2026も参照。

RAG評価が必要な理由

RAGの複雑性と崩れどころ

RAGは単発のLLM呼び出しに見えて、実体は「チャンク化→埋め込み(Embedding)→ベクトル検索→リランキング→コンテキスト構築→LLM生成」という複数ステップのパイプラインである。どれか1箇所が劣化すれば最終品質が崩れるため、典型的な崩れどころとしては——①検索で関係ない文書がヒット、②関連文書は取れたがランキングが低い、③コンテキスト長の上限で重要情報が切れる、④LLMがコンテキストを無視してハルシネーション、⑤正しい情報を返しているが質問と噛み合わない——の5パターンがある。エンジニアが「回答が微妙」と感じても、どのステップを直せばいいか特定できないと改善が当てずっぽうになる。

評価できないものは改善できない

開発段階で数件の質問を目視チェックしても、本番で数万件のクエリが走ったときの品質は担保できない。テキスト生成タスクは従来のMLのように精度(accuracy)一発では測れないため、「検索層の良否」「生成層の良否」「質問との噛み合い」を分解して自動で測る必要がある。これを担うのがRAG評価フレームワークで、中でもRAGASは「リファレンス不要の自動評価」「LLM-as-a-Judge方式」「Pythonライブラリとして軽量」という3点で最も導入しやすい(SIOS Tech Lab: RAG評価手法)。

RAGASの主要メトリクス(2026年版)

RAGASの評価軸は「検索層(Retrieval)」と「生成層(Generation)」の2次元に分かれる。コアとなる主要メトリクスは以下の5つで、定義はRAGAS公式docs(2026年1月版)に準拠する。

1. Faithfulness(忠実度)

生成回答が検索コンテキストから導き出せるかを測る指標。0〜1のスコアで、低いほどハルシネーション(幻覚)の兆候。回答を複数の主張(claim)に分解し、各主張がコンテキストからエンテイルメント(含意)できるかをLLMが判定して算出する。RAG運用で最も頻繁に確認する指標で、0.85未満は要改善が目安(RAGAS公式: Faithfulness)。

2. Answer Relevancy(回答関連度)

回答がユーザーの質問にどれだけ直接的に答えているかを測る。不完全な回答や冗長な情報を含む回答は低スコアになる。仕組みとしては、生成された回答から逆に「この回答が答えうる質問」を複数生成し、元の質問とのコサイン類似度を平均する。質問理解と生成の噛み合わせを見る指標。

3. Context Precision(コンテキスト精度)

検索で取得したコンテキストの中で、関連文書がどれだけ上位にランクされているかを測る指標。理想的には全ての関連チャンクが上位に来るべきで、下位にランクされている場合はリランキング層の改善が必要。検索層のランキング品質を評価する(RAGAS公式: Context Precision)。

4. Context Recall(コンテキスト網羅度)

正解回答を生成するのに必要な情報が、検索コンテキストに十分含まれているかを測る(ground_truth必須)。スコアが低ければ、検索で取りこぼしている文書があるということで、埋め込みモデル変更やチャンクサイズ調整が必要。検索層の網羅性を診断する。

5. Answer Correctness(回答正確度)

生成回答と正解回答(ground truth)の事実一致度を測る総合指標で、ファクトレベルのF1スコアとセマンティック類似度を組み合わせて算出。golden datasetがある場合に最終品質の総合評価として使う。

RAGASのPython実装手順

1. インストールと依存関係

Python 3.9以上でpipで1行インストール:pip install ragas langchain openai datasets(最新バージョンは2026年1月13日リリース、PyPI公式参照)。評価用LLMとしてOpenAI API(GPT-4o/o3)かAnthropic Claude、あるいはローカルLLMを用意する(LLM-as-a-Judge方式のため)。

2. 評価データセット準備

RAGASはquestion(質問)・answer(RAGの回答)・contexts(検索で取得したコンテキストのリスト)・ground_truth(正解回答、オプション)の4カラムを持つデータセットを受け取る。datasets.Dataset.from_dict({...})でHugging Face Dataset形式に変換する。ground_truthが無い場合はFaithfulness・Answer Relevancy・Context Precisionまでは評価可能。

3. 評価実行

from ragas import evaluatefrom ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recallをimportし、result = evaluate(dataset, metrics=[faithfulness, answer_relevancy, ...])で評価スコアが返る。result.to_pandas()でDataFrameに変換すれば質問ごとのスコア分布も可視化できる。

4. 日本語データの注意点

2026年現在、日本語コンテキストでFaithfulnessスコアが英語より低く出る傾向がある。原因はLLM-as-a-Judgeが英語トークン前提で主張分解を行うため、日本語の文構造(主語省略、長い複合名詞)で分解精度が下がるケース。対策は評価用LLMをGPT-4o以上の高性能モデルに固定プロンプトを日本語カスタマイズRAGAS 0.2以降の多言語対応版を使用Ragas最新メトリクス解説と実践的改善ガイド)。

5. CI/CDへの組み込み

PRマージ前にgolden datasetで評価し、FaithfulnessとContext Precisionが閾値を下回ったらマージブロックする運用が一般的。GitHub ActionsでRAGASを毎日回し、本番プロンプトの品質劣化をSlackに通知するなどのパイプラインが定石になっている。

RAGAS vs DeepEval vs TruLens(2026年OSS 3強比較)

観点RAGASDeepEvalTruLens
得意領域RAG特化の自動評価CI/CD統合・Pytest連携本番監視・観測
メトリクス数約15(RAG軸中心)50+(G-Eval等汎用)RAG Triad(3軸中心)
ground truth不要(主要メトリクス)メトリクス依存不要
初期導入◎ 最も軽量○ Pytest慣れに依存△ 観測基盤が必要
本番運用○ Langfuse連携◎ CI/CD向け◎ OpenTelemetry連携

一言で言えば、開発初期のRAG品質診断はRAGAS、CI/CDに組み込むならDeepEval、本番監視はTruLens——という使い分け。3つを併用する企業も多く、「RAGASでgolden dataset生成→DeepEvalでCI/CDゲート→TruLensで本番監視」という組み合わせが王道(Atlan: LLM Evaluation Frameworks 2026腾讯云: RAG评估框架深度测评知乎: 高级RAG Ragas评估)。海外ソースは日本の規制や内部統制制度と異なる文脈で書かれている点に注意し、日本企業で導入する際は個人情報保護法・業界ガイドラインと照らし合わせて運用設計する必要がある。

LLM-as-a-Judgeの限界と対策

RAGAS含め3強全てがLLM-as-a-Judge方式に依存しているため、評価LLM自体のバイアスが入る。典型的な落とし穴は——①位置バイアス(最初/最後のコンテキストを過大評価)、②冗長性バイアス(長い回答に高スコア)、③自己評価バイアス(同じLLMで生成と評価を行うと自己肯定)、④日本語ドリフト(英語指標が直訳で崩れる)——の4つ。対策は評価LLMは生成LLMと別モデルを使う(例:生成はClaude、評価はGPT-4o)複数評価LLMの多数決を取る人手評価を月1で抜き打ち実施の3本柱。完全自動化を諦めず、しかしLLM-as-a-Judgeの限界を受け入れた運用設計が重要。

本番運用での活用パターン

1. Golden Dataset駆動のリグレッションテスト

本番クエリから代表的な数十〜数百件をgolden datasetとして固定し、PRマージごとにRAGASで評価するパターンが一般的。Faithfulness・Context Precisionに運用上の閾値を設け、下回ったらブロックする運用が安定する。推奨サンプル数についてはPremAI Blog: RAG Evaluation 2026が「20件未満は揺れが大きく、50件程度から安定」と整理している。

2. Agentic RAGの評価

2026年はエージェントがツール呼び出しを伴うAgentic RAGが主流化。RAGAS 0.2以降はマルチステップエージェントの各ステップを評価できるAgentGoalAccuracyメトリクスを追加しており、AIエージェント 作り方完全ガイド 2026で紹介したLangGraph/CrewAIとの統合も進んでいる。

3. Langfuse・LangSmithとの連携

本番トレースを評価に回すパイプラインとして、LangfuseやLangSmithでトレースを収集→RAGASでサンプル評価→ダッシュボードに可視化、という構成が定番。日次バッチで前日の本番ログの一部をサンプリングしてFaithfulnessを追跡すれば、プロンプト変更やモデル更新による品質劣化を即検知できる(Langfuse公式Cookbook: RAGAS評価)。

導入ロードマップ(30日モデル)

Week 1:RAGASインストール・小規模datasetでFaithfulness/Answer Relevancyを試し、既存RAGのベースライン数値を取る。Week 2:golden dataset(数十件規模)を作成し、Context Precision/Recallも含めた5指標で総合評価。改善候補の検索層/生成層を特定。Week 3:CI/CDにRAGAS評価ステップを組み込み、閾値下回りでPRブロック。DeepEvalとの併用検討。Week 4:Langfuse等で本番トレース収集→日次バッチでサンプル評価→Slack通知の監視パイプラインを構築。この1ヶ月でRAG品質の可視化から自動監視まで一通り立ち上がる。

まとめ

RAGAS は2026年時点でRAG評価のデファクト標準であり、参照回答不要のLLM-as-a-Judge方式で軽量に導入できるのが強み。主要5メトリクス(Faithfulness/Answer Relevancy/Context Precision/Context Recall/Answer Correctness)で検索層と生成層を分解診断し、問題箇所を特定できる。DeepEvalはCI/CD、TruLensは本番監視と役割分担しつつ、RAGAS中心でまず立ち上げるのが王道。日本語ドリフトや位置バイアスなどLLM-as-a-Judgeの限界は認識しつつ、golden dataset駆動のリグレッションテストと本番トレース連携で継続運用できる体制を30日で作れる。RAGASを入れた次のステップは、検索層の改善(Embedding Model比較)やエージェント化(AIエージェント作り方)へと繋がる。

SHARE

よくある質問

Q.RAGASとは何ですか?なぜRAG評価でデファクト標準になったのですか?
A.

RAGAS(Retrieval-Augmented Generation Assessment)は、RAGシステムを自動で評価するためのオープンソースPythonフレームワークです。2023年9月の論文「Ragas: Automated Evaluation of Retrieval Augmented Generation」から始まり、2026年時点ではAWS・Microsoft・Databricks・Moody'sなどの大企業で月500万回を超える評価に利用されています。デファクト標準になった理由は、(1)Faithfulness・Answer Relevancy・Context Precision・Context Recall・Answer Correctnessといったコアメトリクスを網羅する、(2)LLM-as-a-Judge方式で参照回答(ground truth)なしでも動く、(3)Pythonライブラリとしてpip installで1行導入できる軽量さ、(4)LangChain・LlamaIndex・Langfuse・Elasticsearchなど主要RAGスタックとの連携が揃っている、(5)無料のOSSで商用利用可能、の5点です。DeepEval・TruLensと並ぶOSS3強の中で、「RAG特化」「軽量」「入門しやすい」の3拍子で初期採用の第一候補になっています。

Q.RAGASの主要メトリクス5つをざっくり説明してください。
A.

2026年時点の主要メトリクスは以下の5つです。(1)Faithfulness(忠実度):生成回答が検索コンテキストから導き出せるかを測り、低スコアはハルシネーションの兆候。回答を複数主張に分解し、コンテキストから含意できるかをLLMが判定します。(2)Answer Relevancy(回答関連度):回答がユーザーの質問にどれだけ直接的に答えているかを測る。不完全・冗長な回答は低スコア。(3)Context Precision(コンテキスト精度):検索結果の中で関連文書が上位にランクされているかを評価し、リランキング層の品質を診断します。(4)Context Recall(コンテキスト網羅度):正解回答を作るのに必要な情報が検索コンテキストに十分含まれているかを測り、ground_truthが必要です。(5)Answer Correctness(回答正確度):生成回答と正解回答の事実一致度を総合的に評価します。運用ではFaithfulness・Context Precision・Context Recallでパイプラインを診断し、Answer Correctnessは golden dataset がある場合に最終品質として使うのがベストプラクティスです。

Q.RAGASはDeepEvalやTruLensとどう使い分けるべきですか?
A.

2026年のOSS3強RAG評価フレームワークの使い分けは、用途と運用フェーズで決まります。RAGASは開発初期のRAG品質診断・golden dataset生成・軽量な導入を得意とし、RAG特化メトリクスが最も充実しています。DeepEvalはCI/CD統合が強みで、Pytestネイティブの書き味と50+のSOTAメトリクス(G-Eval含む汎用指標)を備え、本番マージゲートに最適です。TruLensは本番監視に強く、OpenTelemetry連携とFeedback Functions機構でプロダクショントレースをリアルタイム評価できます。実務での王道パターンは「RAGASで開発時評価→DeepEvalでCI/CDゲート→TruLens/Langfuseで本番監視」という3段構え。小規模プロジェクトならRAGAS単体で開発〜CI/CDまで回し、規模が大きくなったらDeepEvalを追加するのが現実的です。いずれもLLM-as-a-Judge方式のため、評価LLMは生成LLMと別モデルにするのが鉄則です。

Q.RAGASを日本語RAGに使う際の注意点は?
A.

2026年時点でRAGASを日本語コンテキストで使う場合、Faithfulnessスコアが英語より低く出やすいという既知の課題があります。原因はLLM-as-a-Judgeが英語トークン前提で主張分解を行うため、日本語特有の主語省略・長い複合名詞・敬語表現などで分解精度が下がるケースです。対策は3つあります。(1)評価用LLMをGPT-4o以上の高性能モデルに固定する——軽量モデルを使うと日本語分解が崩れやすい、(2)RAGAS 0.2以降の多言語対応版を使用する——プロンプトが日本語チューニングされており旧版より安定、(3)評価プロンプトを日本語でカスタマイズする——Faithfulness/Context Precisionの判定プロンプトを日本語で書き直すことで分解精度が改善します。加えて、golden datasetは日本語で本番クエリから抽出したものを使い、英語データセットの機械翻訳で済ませないことが重要。まずは英語pipelineと比べてスコアの絶対値ではなく時系列の変化で品質劣化を追うのが実務的な運用です。

Q.RAGASをCI/CDに組み込む場合、どんな閾値でPRブロックすべき?
A.

CI/CDへの組み込みでは、golden dataset(50-200件の代表クエリ)を固定して、PRマージ前にRAGAS評価をGitHub Actionsなどで実行するのが定石です。2026年時点の閾値目安は、Faithfulness 0.85-0.90以上(ハルシネーション許容度)・Context Precision 0.80-0.85以上(検索ランキング品質)・Answer Relevancy 0.85以上(質問との噛み合い)。これらを下回ったらマージブロック、というゲート設計が一般的です。運用上の注意は、(1)閾値は絶対値ではなく前回ベースラインからの相対低下(例:5%以上劣化で警告)で監視すると過剰ブロックを避けられる、(2)golden datasetは月1で見直し、本番クエリ分布の変化に追随させる、(3)LLMコストがかかるためPR全件ではなく本番に影響するファイル変更時のみ発火させる工夫が必要(プロンプトファイル・retriever設定の変更時のみなど)、(4)DeepEvalのPytest統合と併用すれば、RAGASの結果をPytestアサーションとして扱えます。

関連記事