标签: retrieval

RAG（Retrieval-Augmented Generation）是一种将外部知识检索与 LLM 生成能力相结合的技术范式。它通过在推理时动态检索相关文档，将检索结果注入 prompt 上下文，从而让模型在不修改参数的情况下获取最新、特定的知识。

基本原理

RAG 的工作流程分为两个核心阶段：

检索（Retrieval）：用户查询经过 embedding 模型编码为向量，在向量数据库（如 Pinecone、Milvus、Weaviate）中进行语义搜索，找到最相关的文档片段。语义搜索相比关键词匹配能更好地理解查询意图。
生成（Generation）：检索到的文档片段作为上下文，与用户查询一起送入 LLM，由模型基于这些上下文生成回答。

zhuonixian2026/5/29大约 2 分钟