当前位置：首页 > news >正文

Raptor框架：基于递归聚类与树状索引的高性能RAG检索系统解析

news 2026/6/6 6:31:46

1. 项目概述：Raptor，一个为现代应用而生的高性能数据检索框架

最近在折腾一个需要处理海量非结构化文档（比如PDF、Word、网页）的智能应用项目，核心需求是从这些文档里快速、准确地找到与用户问题最相关的信息。这听起来像是向量数据库的典型场景，对吧？但在实际动手时，我发现了一个痛点：传统的“一刀切”式向量检索，在面对复杂、冗长或结构松散的文档时，效果往往不尽如人意。要么检索到的信息太零碎，上下文缺失；要么就是检索速度跟不上实时交互的需求。就在我为此挠头的时候，一个名为Raptor的开源项目进入了我的视野。

Raptor，全称是Recursive Abstractive Processing for Tree-Organized Retrieval，直译过来是“面向树状组织检索的递归抽象处理”。这个名字听起来有点学术，但它的核心思想却非常直观且强大。它不是一个简单的向量数据库客户端，而是一个端到端的检索增强生成（RAG）框架，其最核心的创新在于，它通过一种递归聚类和摘要的方法，为你的文档库构建了一个多层次的、语义化的“索引树”。这棵树，就是它实现“智能检索”的秘密武器。

简单来说，Raptor 的工作流程可以概括为：切分 -> 聚类 -> 摘要 -> 再聚类 -> 再摘要 -> 构建树 -> 检索。它会把你的长文档切成小块（Chunks），然后根据语义相似性把这些小块聚合成组，并为每个组生成一个高度凝练的摘要。接着，它把这些摘要当作新的“文档”，重复上述聚类和摘要的过程，层层向上，最终形成一棵树。当用户发起查询时，Raptor 不是直接去海量的小块里捞针，而是从树根开始，自上而下地遍历这棵树，快速定位到最相关的子树和叶子节点（即原始文本块）。这种方法极大地提升了检索的精度和效率，尤其擅长处理需要理解文档宏观结构和主题脉络的复杂查询。

这个项目由 gadievron 在 GitHub 上开源，它基于 Python 构建，深度集成了像 OpenAI、Cohere 这样的主流大语言模型（LLM）API，以及 Chroma、Qdrant 等向量数据库。对于任何正在构建知识库问答、智能客服、研究助手或任何需要从复杂文档中提取信息的开发者来说，Raptor 提供了一个跳出传统思维框架的、极具潜力的解决方案。接下来，我将结合自己搭建和测试的经验，为你深度拆解 Raptor 的设计精髓、实操细节以及那些官方文档里可能不会明说的“坑”。

2. 核心架构与设计哲学：为什么是“树”？

在深入代码之前，我们必须先理解 Raptor 选择“树状索引”背后的深层逻辑。这决定了我们何时该用它，以及如何用好它。

2.1 传统扁平化检索的瓶颈

大多数 RAG 系统采用一种扁平化的处理方式：

文档加载：读取 PDF、TXT 等文件。
文本分割：使用固定的滑动窗口或按段落分割，得到一堆文本块。
向量化：为每个文本块生成嵌入向量。
存储与检索：将所有向量存入向量数据库。查询时，计算查询向量的相似度，返回 Top-K 个最相似的块。

这种方法简单直接，但存在几个明显问题：

上下文碎片化：一个完整的论点或故事可能被生硬地切割在不同的块里。检索时可能只返回了论据的一部分，丢失了核心结论，导致 LLM 的回答断章取义。
主题漂移：对于长篇文档，靠后的内容可能与开头部分主题迥异。简单的相似度检索可能无法准确捕捉到查询与文档特定章节的关联。
效率与精度的权衡：为了捕捉更多上下文，你可以增大块的大小（例如，从 256 字符增加到 1024 字符）。但这会降低检索的粒度，可能引入无关信息。反之，减小块大小能提高粒度，但会加剧碎片化问题，并且由于块数量激增，检索的耗时和计算成本也会上升。

2.2 Raptor 的树状索引：一种分而治之的语义组织

Raptor 的核心创新在于，它不满足于将文档视为一袋无序的单词块（bag of chunks）。它试图理解并重建文档的语义层次结构。

叶子层（基础块）：和传统方法一样，先进行文本分割，得到最细粒度的文本块。这是树的叶子节点。
递归聚类与摘要：
- 第一层聚类：使用嵌入模型（如text-embedding-3-small）计算所有叶子节点的向量，然后通过聚类算法（如高斯混合模型 GMM）将它们分成若干组。每个组内的叶子节点在语义上是相近的。
- 第一层摘要：对于每个聚类，将其包含的所有叶子节点的文本内容，发送给 LLM（如 GPT-4），要求它生成一个能够概括该聚类所有核心信息的摘要。这个摘要，就成为了树的一个中间节点。
- 递归向上：将这些新生成的摘要文本，视为新的“文档集”。重复上述过程：为这些摘要生成嵌入、聚类、再生成更高层次的摘要。如此往复，直到聚类数量减少到一个预设的阈值（例如，只剩下一个或几个节点）。这个最终的摘要，就是树的根节点，它代表了整个文档集最顶层的主题概括。

这样构建出来的树，具有以下优势：

多粒度检索：检索时，查询向量首先与根节点（最粗粒度）比较，快速定位到相关的子树；然后沿着子树向下，与中间节点（中等粒度）比较；最后到达叶子节点（最细粒度）。这是一个由粗到细的筛选过程，比在扁平的海量数据中做暴力搜索要高效得多。
语义路由：树的结构本身充当了一个“语义路由器”。查询关于“财务报告中的风险评估”部分，系统会自然地被路由到代表“财务”和“风险”主题的子树，而不会浪费算力在“公司历史”或“产品介绍”的枝叶上。
保留上下文：由于每个中间节点都是其子节点内容的摘要，检索到某个叶子节点时，你可以轻松地将其父节点、祖父节点的摘要作为上下文一同提供给 LLM，从而有效缓解了碎片化问题，让 LLM 能在一个更完整的语义框架下生成答案。

2.3 技术栈选型解析

Raptor 的设计是模块化的，这给了开发者很大的灵活性：

嵌入模型：默认支持 OpenAI 的 Embeddings API，也可扩展支持 Sentence Transformers、Cohere 等。选择的关键在于权衡质量、速度和成本。对于实验阶段，text-embedding-3-small是性价比之选；对精度要求极高且不计成本，可以考虑text-embedding-3-large或voyage-2。
聚类算法：项目实现了多种算法，包括 K-Means、GMM 和一种基于阈值的聚类。GMM 通常是效果最好的选择，因为它不要求预先指定聚类数量（K值），能根据数据分布自动确定，更适应不同文档集的特性。
LLM 摘要器：核心是调用 GPT-4 或 GPT-3.5-Turbo 来生成摘要。这里有一个关键技巧：摘要的提示词（Prompt）设计至关重要。Raptor 的默认提示词要求 LLM 生成“简洁、信息丰富”的摘要，并保留关键实体、数据和关系。在实际应用中，你可能需要根据你的文档类型（法律条文、技术手册、会议纪要）微调这个提示词，以引导 LLM 产出更符合你需求的摘要。
向量数据库：用于存储每一层节点的嵌入向量。Chroma（内存模式）适合快速原型验证；Qdrant、Weaviate、Pinecone 则适用于生产环境，提供持久化、可扩展的向量存储与检索服务。

实操心得：聚类层数与摘要成本的控制递归的层数是一个超参数。层数越多，树的结构越精细，但构建索引的成本（主要是 LLM API 调用费用）也呈指数级增长。我的经验是，对于 100 页以内的文档集，2-3 层树已经足够；对于上千页的大型知识库，可能需要 3-4 层。在Raptor类初始化时，可以通过threshold参数控制何时停止递归（当聚类数量小于该阈值时）。将其设置为一个稍大的数（如 0.5），可以有效控制树的深度和构建成本。

3. 从零开始：实战构建你的第一个 Raptor 检索系统

理论说得再多，不如亲手跑一遍。下面我将带你完整地走一遍使用 Raptor 构建一个针对技术论文集的智能问答系统的流程。假设我们的文档是 10 篇关于“机器学习可解释性”的 PDF 论文。

3.1 环境准备与依赖安装

首先，确保你的 Python 环境在 3.8 以上。创建一个新的虚拟环境是良好的习惯。

# 1. 创建并激活虚拟环境 (可选，但推荐) python -m venv raptor_env source raptor_env/bin/activate # Linux/macOS # raptor_env\Scripts\activate # Windows # 2. 安装 Raptor # 直接从 GitHub 安装最新版本，因为 PyPI 的版本可能滞后 pip install git+https://github.com/gadievron/raptor.git # 3. 安装额外的依赖，如 PDF 解析器 pip install pypdf2 # 或 pdfplumber, pymupdf pip install chromadb # 如果使用 Chroma 作为向量库

接下来，你需要设置 LLM 和 Embedding 的 API 密钥。Raptor 默认使用环境变量来读取。

# 在你的 shell 配置文件 (.bashrc, .zshrc) 或直接在终端中设置 export OPENAI_API_KEY='你的-openai-api-key' # 如果你用其他服务，如 Cohere export COHERE_API_KEY='你的-cohere-api-key'

3.2 文档加载与预处理

Raptor 提供了Document类和PDFReader等工具来简化这一步。我们创建一个 Python 脚本build_raptor.py。

import os from raptor import Raptor, RetrievalAugmentation from raptor.document_reading import PDFReader # 1. 指定你的 PDF 文件夹路径 pdf_folder_path = "./papers/" # 2. 使用 PDFReader 加载所有文档 reader = PDFReader() documents = [] for filename in os.listdir(pdf_folder_path): if filename.endswith('.pdf'): file_path = os.path.join(pdf_folder_path, filename) print(f"正在加载: {filename}") # 读取 PDF，每一页或每几页可以作为一个基础文档单元 # 这里我们简单地将整个 PDF 作为一个文档，后续由 Raptor 内部切割 doc_text = reader.read(file_path) # 创建 Document 对象，可以添加元数据如标题 from raptor import Document doc = Document(content=doc_text, metadata={"title": filename[:-4]}) documents.append(doc) print(f"成功加载 {len(documents)} 篇文档。")

注意事项：PDF 解析的质量是关键PDFReader可能无法完美处理所有 PDF（尤其是扫描版或复杂排版的）。如果遇到文本提取错乱，可以尝试换用pdfplumber或pymupdf(fitz) 库，并编写自己的解析逻辑，确保提取出的文本是干净、连贯的。文本质量直接决定后续嵌入和摘要的效果。

3.3 配置与初始化 Raptor 实例

这是核心步骤，我们需要配置各种组件。

# 3. 配置 Raptor raptor_instance = Raptor( documents=documents, # 我们加载的文档列表 embedding_model="text-embedding-3-small", # 选择嵌入模型 clustering_algorithm="gmm", # 选择聚类算法，推荐 GMM cluster_count=5, # 对于 GMM，这个参数是最大聚类数参考，不是硬性规定 summarization_model="gpt-3.5-turbo", # 用于生成摘要的 LLM。对质量要求高可用 "gpt-4" vector_store="chroma", # 向量数据库类型 collection_name="ml_interpretability_papers", # 在向量库中的集合名 persist_directory="./chroma_db", # Chroma 持久化目录 threshold=0.5, # 递归停止阈值。当聚类数量占比低于此值时停止。控制树深度。 top_k=5, # 检索时，从每一层返回的相似节点数量 verbose=True # 打印构建过程的日志，便于调试 )

参数详解：

cluster_count: 对于 K-Means 是必须的，对于 GMM 是一个参考值。GMM 会基于数据分布决定最佳簇数，但此参数设置了上限。
summarization_model: 摘要生成是 API 调用的主要成本来源。gpt-3.5-turbo成本低、速度快，足以胜任大多数场景。如果文档极其复杂或摘要质量对最终答案影响巨大，再考虑gpt-4。
threshold: 这是控制递归深度的关键。假设你有 1000 个叶子节点，threshold=0.5意味着当某一层的节点数少于 500（1000*0.5）时，就停止向上聚类。设置得越小，树越深，构建越慢、成本越高，但可能检索更精准。
top_k: 在树中每一层检索时，保留多少个最相似的子节点继续向下搜索。增大此值会提高召回率，但也会增加计算量。

3.4 构建索引树

配置好后，一行代码即可开始构建索引。这个过程可能会比较耗时，且会产生 LLM API 调用费用。

# 4. 构建递归聚类树索引 print("开始构建 Raptor 索引树，这可能需要一些时间...") raptor_instance.build() print("索引树构建完成！")

在verbose=True模式下，你会在终端看到类似这样的日志：

正在分割文档... 生成叶子节点嵌入... 进行第一层聚类 (GMM)... 为聚类 1/7 生成摘要... 为聚类 2/7 生成摘要... ... 第一层完成，生成 7 个摘要节点。 将摘要节点作为新文档集，开始第二层... ... 递归停止条件满足。共构建了 3 层树状索引。

这个过程就是 Raptor 魔法发生的地方：它自动完成了切割、嵌入、聚类、摘要、再聚类的循环。

3.5 执行检索与问答

索引构建好后，我们就可以用它来回答问题了。Raptor 提供了RetrievalAugmentation类来封装检索和生成答案的流程。

# 5. 初始化检索增强器 retrieval_augmentor = RetrievalAugmentation(raptor=raptor_instance) # 6. 提出一个问题 query = "在图像分类模型中，有哪些主流的事后可解释性方法？它们各自的优缺点是什么？" # 7. 执行检索并生成答案 answer, source_nodes = retrieval_augmentor.answer_query(query, max_tokens=500) print("\n=== 问题 ===") print(query) print("\n=== Raptor 生成的答案 ===") print(answer) print("\n=== 参考来源 (叶子节点) ===") for i, node in enumerate(source_nodes): print(f"\n--- 来源 {i+1} ---") # 显示部分文本和元数据 print(f"内容片段: {node.text[:300]}...") if node.metadata: print(f"元数据: {node.metadata}")

answer_query方法内部做了以下几件事：

检索：将你的查询语句query向量化，然后从 Raptor 树的根节点开始，自上而下进行相似度搜索，最终定位到最相关的若干个叶子节点（原始文本块）。
上下文组装：将这些叶子节点的文本，连同它们路径上的父节点摘要（作为上下文），一起组装成一个提示词（Prompt）。
生成：调用 LLM（默认与摘要模型相同），将组装好的上下文和问题一起发送，要求其生成答案。

source_nodes返回的是检索到的叶子节点列表，方便你进行溯源和验证。

4. 高级配置与性能调优实战

默认配置能跑起来，但要发挥 Raptor 的最大威力，必须根据你的具体数据和需求进行调优。

4.1 文本分割策略：平衡粒度与上下文

Raptor 内部使用RecursiveCharacterTextSplitter，但你可以自定义分割器。

from langchain.text_splitter import RecursiveCharacterTextSplitter # 创建自定义分割器 my_splitter = RecursiveCharacterTextSplitter( chunk_size=800, # 每个块的最大字符数 chunk_overlap=150, # 块之间的重叠字符数，有助于保持上下文连贯 length_function=len, separators=["\n\n", "\n", "。", "！", "？", "；", "，", " ", ""] # 中文优先的分隔符 ) # 在初始化 Raptor 时传入 raptor_instance = Raptor( documents=documents, text_splitter=my_splitter, # 使用自定义分割器 # ... 其他参数 )

chunk_size：这是最重要的参数。对于技术论文、法律文件等密集文本，600-1000 的尺寸可能合适，以保证一个完整的论点或定义在一个块内。对于社交媒体文本、对话记录，可能 200-400 更合适。
chunk_overlap：重叠部分能有效缓解“边界效应”，即一个概念刚好被切分在两个块边缘的问题。通常设置为chunk_size的 10%-20%。

4.2 聚类算法深度对比与选择

Raptor 支持三种算法，通过clustering_algorithm参数指定：

gmm(高斯混合模型)：默认且推荐。优点是不需要预设 K 值，能根据数据本身的分布确定聚类数量，灵活性高。缺点是计算复杂度相对较高。
kmeans：需要预先指定cluster_count。优点是速度快。缺点是 K 值很难确定，设错了会严重影响聚类质量。
threshold：基于向量间的余弦相似度阈值进行聚类。距离小于阈值的归为一类。这种方法更直观，但对阈值非常敏感，且可能产生大小非常不均衡的簇。

如何选择？

无脑推荐 GMM：在大多数情况下，GMM 都能产生合理的结果。
只有当你对数据的主题数量有非常清晰的先验知识时，才考虑 K-Means。例如，你明确知道你的文档集就是关于“技术、市场、人事”三个主题的。
threshold算法可以用于一些特定实验，但不建议在生产中作为首选。

4.3 摘要提示词工程：引导 LLM 产出高质量摘要

摘要的质量决定了中间节点的信息含量，进而影响整个树的质量。Raptor 允许你自定义摘要提示词。

from raptor import BaseSummarizer from langchain.prompts import PromptTemplate import openai class CustomSummarizer(BaseSummarizer): def summarize(self, texts): """ texts: 一个列表，包含需要被汇总的多个文本块。 返回一个汇总后的文本字符串。 """ combined_text = "\n---\n".join(texts) # 自定义一个更强调技术细节的提示词 prompt_template = PromptTemplate.from_template( """你是一个机器学习领域的专家。请将以下一组相关的技术文本片段，综合成一个连贯、准确、信息丰富的摘要。 要求： 1. 摘要必须用中文撰写。 2. 突出其中的核心方法、关键技术术语、实验结论和重要数据。 3. 如果存在对比或优劣分析，务必保留。 4. 保持客观，不要添加原文中没有的信息。 5. 摘要长度控制在300字以内。 文本片段： {combined_text} 专家摘要：""" ) prompt = prompt_template.format(combined_text=combined_text) # 调用 LLM response = openai.ChatCompletion.create( model=self.summarization_model, # 从父类继承的模型名 messages=[{"role": "user", "content": prompt}], temperature=0.2, # 低温度，确保摘要的确定性和一致性 max_tokens=500 ) return response.choices[0].message.content # 在初始化 Raptor 时传入自定义的摘要器 raptor_instance = Raptor( documents=documents, summarizer=CustomSummarizer(summarization_model="gpt-3.5-turbo"), # ... 其他参数 )

通过定制提示词，你可以让摘要更符合你的领域特点，例如要求保留法律条款编号、产品规格参数、人物关系等。

4.4 向量数据库的选择与持久化

对于生产环境，内存型的 Chroma 不够可靠。集成远程向量数据库是必须的。

# 示例：使用 Qdrant from qdrant_client import QdrantClient from raptor.vector_stores import QdrantVectorStore # 连接到 Qdrant 服务器 client = QdrantClient(host="localhost", port=6333) vector_store = QdrantVectorStore( client=client, collection_name="raptor_collection", embedding_model_name="text-embedding-3-small" # 需与 Raptor 配置一致 ) raptor_instance = Raptor( documents=documents, vector_store=vector_store, # 传入自定义的向量存储实例 # ... 其他参数 )

使用persist_directory参数可以让本地的 Chroma 持久化，但生产环境更推荐 Qdrant、Weaviate 或 Pinecone 这类专业服务，它们提供了更好的可扩展性、容灾性和管理功能。

5. 常见问题、故障排查与效能评估

在实际使用中，你肯定会遇到各种问题。下面是我踩过的一些坑以及解决方案。

5.1 构建过程慢或 API 费用高

问题：文档很多，构建索引耗时极长，OpenAI API 调用费用惊人。
排查与解决：
1. 采样调试：先用 2-3 篇文档跑通整个流程，估算单篇文档的处理时间和成本。
2. 控制递归深度：增大threshold参数（如从 0.2 调到 0.5），让树更浅，减少递归轮次和摘要生成次数。
3. 使用廉价模型：在构建索引时，摘要模型使用gpt-3.5-turbo。在最终问答时，如果愿意，可以单独配置一个更强的模型（如 GPT-4）来生成答案。
4. 缓存嵌入：Raptor 本身不缓存嵌入向量。你可以考虑在外层实现一个简单的缓存机制，将(text, model)的哈希值作为 key，存储生成的向量，避免重复计算相同文本的嵌入。
5. 并行处理：检查 Raptor 代码，看是否支持对文档或聚类的并行处理。如果不支持，对于大规模数据，可能需要自己实现分批次、多进程构建。

5.2 检索结果不相关或答案质量差

问题：问东答西，或者答案看起来是基于不相关的文本片段生成的。
排查与解决：
1. 检查文本分割：首先检查原始文本分割的质量。打印出一些叶子节点看看，是不是被切得支离破碎？调整chunk_size和chunk_overlap。
2. 检查嵌入模型：你的查询和文档是否用同一种语言？中文查询和英文文档可能匹配不佳。尝试更换更适合你语种的嵌入模型，如text-embedding-3-small对多语言支持较好，或专门的中文嵌入模型。
3. 调整检索参数：增加top_k值（例如从 5 调到 10），让检索过程考虑更多分支，提高召回率。
4. 审视聚类质量：在verbose模式下，观察每一层聚成了多少类。如果第一层就把所有文档聚成了1-2类，说明聚类可能失败了，文档间的区分度没被捕捉到。可以尝试更换聚类算法，或者检查嵌入向量的质量。
5. 优化摘要提示词：糟糕的摘要会导致中间节点信息失真，误导检索路径。参考 4.3 节优化你的摘要提示词，确保摘要能准确代表子节点群的核心内容。
6. 检查最终提示词：Raptor 将检索到的文本和问题组合后发给 LLM。查看这个最终的提示词是什么，是否提供了清晰的指令（如“基于以下上下文回答，如果上下文不包含答案，请说不知道”）？你可能需要自定义RetrievalAugmentation中的提示模板。

5.3 如何评估 Raptor 的效果？

评估 RAG 系统是一个复杂课题，但可以从以下几个简单实用的方面入手：

检索精度（Precision@K）：人工审核对于一组测试问题，检索到的 Top-K 个文本块中有多少是真正相关的。这是最直接的指标。
答案相关性：将 Raptor 生成的答案与一个基准（如人工答案、或基于全文的 GPT-4 答案）进行对比。可以使用像BERTScore或LLM-as-a-Judge（让 GPT-4 评判两个答案的质量）这样的方法进行自动化评估。
溯源准确性：检查答案中声称的引用，是否真的能在提供的源文本块中找到支持。防止 LLM“幻觉”。
A/B 测试：与一个传统的扁平化 RAG 基线系统进行对比。在相同的问题集上，看哪个系统给出的答案更受领域专家认可。

一个简单的评估脚本思路：

test_questions = ["问题1", "问题2", ...] expected_answers = ["期望答案1", "期望答案2", ...] # 或参考来源 for q, exp_a in zip(test_questions, expected_answers): answer, sources = retrieval_augmentor.answer_query(q) # 1. 打印答案和来源，人工判断 print(f"Q: {q}") print(f"A: {answer}") print(f"Sources: {[s.metadata for s in sources]}") print("-"*50) # 2. 或者，调用 BERTScore 计算与期望答案的相似度 # from bert_score import score # P, R, F1 = score([answer], [exp_a], lang="zh")

5.4 错误处理与日志

确保你的代码有良好的错误处理和日志记录，尤其是在调用外部 API 时。

import logging import time from openai import OpenAIError logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s') try: raptor_instance.build() except OpenAIError as e: logging.error(f"OpenAI API 调用失败: {e}") # 可能是额度不足、网络问题，可以实现重试逻辑 if "rate limit" in str(e).lower(): logging.info("遇到速率限制，等待60秒后重试...") time.sleep(60) # 重试逻辑 except Exception as e: logging.error(f"构建索引过程中发生未知错误: {e}") # 记录当前状态，以便恢复

6. 超越基础：Raptor 的进阶应用场景与扩展

Raptor 的树状索引思想非常灵活，可以适配多种复杂场景。

6.1 处理多模态文档

如果你的文档包含图片、表格，Raptor 不能直接处理。但你可以构建一个预处理管道：

使用 OCR 提取图片中的文字。
使用类似tabula-py或Camelot的库提取表格数据，并将其转换为描述性文字（例如：“下表展示了2023年各季度营收：Q1: 100万， Q2: 120万...”）。
将提取出的文本与原文档文本融合，再喂给 Raptor。这样，检索时就能基于图片和表格的文本描述找到相关内容。

6.2 实现动态更新与增量索引

Raptor 目前没有内置的增量更新机制。当有新文档加入时，全量重建索引的成本很高。一个可行的策略是：

局部重建：将新文档单独构建一棵小树。在检索时，同时查询旧树和新树，然后合并结果。这需要修改检索逻辑。
定期全量重建：对于更新不频繁的场景，可以设定每天或每周的低谷期进行全量重建。
社区贡献：关注 Raptor 项目的 GitHub Issue 和 Pull Request，增量更新功能是很多用户期待的特性，未来可能会有官方支持。

6.3 与现有 RAG 框架集成

你可以将 Raptor 视为一个更智能的“检索器”，集成到像 LangChain 或 LlamaIndex 这样的框架中。

# 伪代码示例：将 Raptor 包装成 LangChain 的 Retriever from langchain.schema import BaseRetriever, Document as LangchainDocument class RaptorRetriever(BaseRetriever): def __init__(self, raptor_instance): self.raptor = raptor_instance self.retrieval_augmentor = RetrievalAugmentation(raptor=raptor_instance) def get_relevant_documents(self, query: str) -> List[LangchainDocument]: # 使用 Raptor 进行检索 _, source_nodes = self.retrieval_augmentor.answer_query(query, max_tokens=0) # 不生成答案，只检索 # 将 Raptor 的 Node 转换为 LangChain 的 Document lc_docs = [] for node in source_nodes: lc_docs.append(LangchainDocument(page_content=node.text, metadata=node.metadata)) return lc_docs # 现在你就可以在 LangChain 的 Chain 中使用 `RaptorRetriever` 了

通过这种方式，Raptor 的强大检索能力可以无缝接入到现有的大语言模型应用生态中。

从我数周的实验来看，Raptor 在处理结构复杂、主题多样的长文档检索任务上，相比传统方法有质的提升。它构建的语义树像给文档库安装了一个“导航地图”，让检索过程不再是盲目的相似度匹配，而是有目的的路径探索。当然，它也不是银弹，构建索引的成本和复杂度是其主要门槛。我的建议是，对于文档数量不大（几百个以内）、但内容深度和复杂度高的场景，Raptor 值得你投入时间进行尝试和调优。先从一个小型、干净的数据集开始，耐心调整分割、聚类和摘要的各个参数，观察树的结构和检索效果的变化，你就能逐渐掌握这把“智能检索”的利器。

查看全文

http://www.cnnetsun.cn/news/2427335.html