如何构建 RAG 系统

zhuonixian2026/5/29大约 3 分钟

本指南从工程实践角度讲解如何构建 RAG（检索增强生成）系统，覆盖文档处理到质量评估的完整链路。

文档加载和分块

文档分块（Chunking）是 RAG 效果的基础：

工具推荐：LangChain 的 RecursiveCharacterTextSplitter、LlamaIndex 的 SentenceSplitter。

嵌入模型将文本转化为向量表示，直接影响检索质量：

选型原则：优先在自有数据集上对比候选模型的检索召回率，而非仅看通用基准。

向量数据库负责存储和检索向量：

选型维度：数据规模、查询延迟要求、是否需要过滤（metadata filtering）、运维复杂度。

单纯的向量相似度搜索往往不够，进阶策略：

混合搜索（Hybrid Search）：结合向量搜索和关键词搜索（BM25），两者互补。大多数向量数据库已内置支持
重排序（Reranking）：先用向量搜索召回 Top-K（如 K=20）候选，再用 Cross-Encoder 模型精排，取 Top-N（如 N=5）
查询改写（Query Rewriting）：让 LLM 将用户原始问题改写为更适合检索的形式，或拆解为多个子查询
Parent-Child 检索：对小块做检索，返回所属的大块原文，兼顾检索精度和上下文完整性

检索到的文档需要通过 Prompt 注入到 LLM 的上下文中：

你是一个知识助手。请根据以下参考资料回答用户的问题。
如果参考资料中没有相关信息，请明确说明"根据现有资料无法回答"。

参考资料：
{retrieved_documents}

用户问题：{user_query}

关键原则：明确告诉 LLM 可以使用和不可以使用的信息范围，设置"不知道"的兜底行为。

量化评估是持续优化的基础：

检索准确率：Recall@K（前 K 个结果是否包含正确答案）、MRR（正确答案的平均排名）
回答质量：使用 RAGAS 框架评估 Faithfulness（忠实度）、Answer Relevancy（相关性）、Context Precision（上下文精确度）
端到端测试：构建问答测试集（50-100 对），对比人工标注的期望答案