嵌入(Embedding)是将离散的符号(词、句子、实体)映射到连续的低维向量空间的技术。好的嵌入能够捕获语义关系——语义相近的元素在向量空间中距离相近。嵌入是连接自然语言与数值计算的桥梁,是 concepts/attention-mechanism 和 concepts/vector-database 的基础。
2026/5/29大约 2 分钟
嵌入(Embedding)是将离散的符号(词、句子、实体)映射到连续的低维向量空间的技术。好的嵌入能够捕获语义关系——语义相近的元素在向量空间中距离相近。嵌入是连接自然语言与数值计算的桥梁,是 concepts/attention-mechanism 和 concepts/vector-database 的基础。
语义搜索(Semantic Search)是一种基于语义理解而非关键词匹配的信息检索方式。它通过 concepts/embedding 技术将查询和文档映射到同一向量空间,利用向量相似度来衡量语义相关性,从而检索到"意思相近"而不仅仅是"字面匹配"的结果。
关键词搜索(如 BM25、TF-IDF)基于词频统计和精确匹配,擅长处理包含特定专有名词、产品型号等精确查询。其优势是速度快、可解释性强,但无法理解同义词("汽车" vs "轿车")、上下位关系("水果" vs "苹果")和语义隐含。
向量数据库(Vector Database)是专门为存储、索引和检索高维向量而设计的数据库系统。它是 concepts/embedding 技术和 concepts/retrieval-augmented-generation 架构的基础设施层,使大规模语义检索成为可能。