当前位置：首页 > news >正文

RAG检索结果不够准？揭秘“双塔+单塔“组合背后的精准秘诀！秒懂工业级RAG架构核心！

news 2026/6/2 23:41:26

本文深入剖析工业级RAG系统为何采用"双塔+单塔"两阶段索引机制。双塔结构通过独立编码Query和Doc再计算相似度，实现海量数据的高效召回，但会丢失细粒度匹配信息；单塔结构通过联合编码Query和Doc，利用交叉注意力机制实现精准语义匹配，提升检索精度。两者结合，双塔负责快速"找到"相关内容，单塔负责精准"找对"核心答案，是高质量RAG系统的关键设计。

很多人做 RAG 时都会遇到一个问题：为什么明明已经用了 Embedding，检索结果却依旧“不够准”？为什么用户问“苹果营收”，系统却检索不到“Apple Inc.”相关内容？真正的问题，往往不在大模型，而在 RAG 的检索架构本身。

本文将深入拆解工业级 RAG 背后最核心的“两阶段索引”机制：双塔（Embedding）为什么适合海量召回？单塔（Rerank）为什么能大幅提升精度？以及为什么几乎所有高质量 RAG 系统都会采用“Embedding + Rerank”的组合方案。看完以后，你会真正理解：双塔负责“找到”，单塔负责“找对”。

4.5 RAG 中的两阶段索引

在上一节内容中，我们详细介绍了如何基于在第3章中构建的语义检索引擎来搭建一个完整的 RAG Agent，让它根据用户的提问自主分拆解、回答并总结得到完整的答案。尽管整个流程看似已经搭建完毕，但是依旧有很多地方需要继续优化，例如从向量库检索内容的精度、模型输出结果的后处理等。

在本节内容中，我们将从检索精度这一角度来介绍如何让 RAG Agent 在回答问题时检索到的参考内容更精准，也就是重排序（Rerank）模型的使用。

很多人第一次搭建 RAG 系统时，都会有一个疑问，既然 Embedding 模型能把文本变成向量，为什么还要再加一个 Rerank 模型？

刚开始你可能觉得有它没它区别应该不大，但真正用过之后你会发现加了 Rerank 模型后检索结果可能有质的飞跃，而这背后涉及到的就是 RAG 检索架构中一个非常核心的设计。

4.5.1 双塔结构思想原理

双塔（Bi-Encoder）是 RAG 系统中最常用的检索架构，也是几乎所有向量数据库的底层基础。双塔的核心思想可以用一句话概括：Query 和 Doc 分开编码，最后在向量空间中计算相似度。

图 4-6. 双塔检索流程图

例如，在 RAG 应用开发中，我们会先通过 Embedding 模型（也就是 Encoder）将所有的离线文档都转换成向量存入到向量库中。当用户提问时，我们再将 Query 通过 Embedding 模型将其转换成向量，然后同向量库中的向量进行相似度比较，最后取向量库中前 K 个最相似的文本块作为参考源。你可以把整个过程想象成图书馆的图书检索系统，每本书都有一个编号（向量），读者查询时先拿到查询词的编号，然后在书架上找编号最接近的书。