RAG(Retrieval-Augmented Generation)是一种将外部知识检索与 LLM 生成能力相结合的技术范式。它通过在推理时动态检索相关文档,将检索结果注入 prompt 上下文,从而让模型在不修改参数的情况下获取最新、特定的知识。
基本原理
RAG 的工作流程分为两个核心阶段:
- 检索(Retrieval):用户查询经过 embedding 模型编码为向量,在向量数据库(如 Pinecone、Milvus、Weaviate)中进行语义搜索,找到最相关的文档片段。语义搜索相比关键词匹配能更好地理解查询意图。
- 生成(Generation):检索到的文档片段作为上下文,与用户查询一起送入 LLM,由模型基于这些上下文生成回答。
2026/5/29大约 2 分钟