当前位置：首页 > news >正文

基于RAG与向量数据库构建私有知识库智能问答系统实战

news 2026/5/30 13:53:35

1. 项目概述：构建一个能“理解”你私有数据的智能助手

如果你手头有一堆文档、聊天记录、代码库或者各种内部系统数据，想快速从中找到答案，而不是大海捞针，那么今天这个项目就是为你准备的。我们不再需要手动翻阅成百上千的页面，而是构建一个能“理解”你私有数据的智能聊天机器人。它就像一个24小时在线的专家，能用自然语言回答你关于这些数据的所有问题。

这个项目的核心，是利用当前最热门的几项技术：OpenAI提供强大的语言理解和生成能力，Pinecone作为高效的向量数据库来存储和检索数据的“含义”，Airbyte作为数据搬运工，自动从各个源头抓取数据并处理好，最后用LangChain这个“胶水”框架把它们优雅地组装起来。整个过程，我们追求的是端到端的自动化与实用性，目标是让你在40分钟内看到一个可运行的雏形。

想象一下，你可以问它：“上个季度客户反馈中关于‘登录失败’的问题主要有哪些？”或者“我们的API文档里，关于用户认证的部分是怎么说的？”它都能从相关的文档、邮件或工单中，找到信息并组织成通顺的答案。这不仅仅是关键词搜索，而是真正的语义理解。

2. 核心思路与技术选型解析

2.1 为什么是“检索增强生成”（RAG）？

直接让大型语言模型（LLM）回答关于你私有数据的问题，会面临两个核心挑战：知识截止性和幻觉。模型的训练数据有截止日期，不知道你公司最新的产品文档；更危险的是，当它不知道答案时，可能会“编造”一个听起来合理但完全错误的信息。

检索增强生成模式完美地解决了这个问题。它的工作流程像一个高效的研究员：

检索：当用户提出问题时，系统不是让LLM凭空想象，而是先从你的私有知识库（向量数据库）中，找到与问题语义最相关的几段资料。
增强：将这些找到的“证据”片段，作为额外的上下文，和用户的问题一起提交给LLM。
生成：LLM基于提供的“证据”上下文来生成答案，并可以要求它注明信息来源。

这样做的好处显而易见：答案 grounded 在你的实际数据上，准确性高；可以轻松更新知识库（只需更新向量数据库），而无需重新训练昂贵的LLM；同时，由于LLM只处理检索到的相关片段，也避免了将全部私有数据发送给外部API带来的潜在成本与隐私顾虑。

2.2 组件选型背后的逻辑

OpenAI Embeddings & GPT：我们选择OpenAI的文本嵌入模型（如text-embedding-ada-002）和GPT系列模型（如gpt-3.5-turbo）作为核心引擎。原因在于其API成熟稳定，嵌入质量高，且能保证问题嵌入和文档嵌入使用同一模型，确保相似度计算的一致性。对于生成，GPT模型在遵循指令和基于上下文生成答案方面表现非常出色。
Pinecone：在众多向量数据库中（如Chroma, Weaviate, Qdrant），选择Pinecone是因为它是一款完全托管的云服务，开箱即用，无需操心基础设施运维。它专为大规模向量搜索优化，提供了极低的查询延迟，并且有清晰的免费额度供起步。这对于快速构建原型和中小规模应用来说，能节省大量时间。
Airbyte：这是本项目的“数据流水线”核心。传统方式需要为每个数据源（GitHub, Slack, 网站）单独编写爬虫、处理更新、处理去重，繁琐且易出错。Airbyte提供了超过300个开箱即用的数据连接器（Connector），我们只需配置源（Source）和目标（Destination）。更重要的是，其新推出的“向量数据库目的地”功能，自动化了最复杂的环节：文本分块（Chunking）和向量化（Embedding）。这意味着我们只需告诉Airbyte“从哪取数据”和“存到哪个Pinecone索引”，它就能自动完成剩余工作。
LangChain：它是一个用于开发LLM应用的框架，提供了大量预制链（Chain）、工具和集成。在这里，我们主要利用其RetrievalQA链，它封装了“检索-增强-生成”的完整逻辑。LangChain的价值在于，它标准化了与不同向量库、LLM的交互方式，让代码更简洁，且未来更换底层组件（比如从OpenAI换到其他模型）更容易。

注意：这个架构是松耦合的。你可以用本地部署的Chroma替换Pinecone以节省成本，用开源的Sentence Transformers模型替代OpenAI Embeddings，或者用其他LLM服务。Airbyte和LangChain提供了这种灵活性。

3. 实战搭建：从零到一的完整流程

下面，我将以“构建一个连接器开发知识库机器人”为例，带你一步步实现。我们将从GitHub Issues、官方文档网站和Slack频道三个源头获取数据。

3.1 环境与账号准备

在开始写代码之前，需要准备好几个服务的访问权限。大部分都有免费层，足够用于实验。

OpenAI账号：访问 platform.openai.com，注册并创建API Key。我们将用它进行文本嵌入和答案生成。
Pinecone账号：访问 pinecone.io 注册。在控制台创建一个索引（Index），名称自定，维度（Dimensions）设置为1536（这是OpenAItext-embedding-ada-002模型的向量维度），选择Starter免费套餐即可。
Airbyte实例：你有两个选择。一是使用Airbyte Cloud(cloud.airbyte.com)，注册即用，最方便。二是使用开源版，通过Docker在本地运行。对于本教程，强烈推荐Cloud版，能避免环境配置问题。
数据源账号（根据你的数据源需要）：
- GitHub：需要一个GitHub账号，并创建有读取权限的Personal Access Token。
- Slack：需要创建一个Slack App并安装到你的工作区，以获取Bot Token。
- Apify：用于网页抓取，需要注册Apify账号。

3.2 第一步：使用Airbyte配置GitHub数据源

我们的第一个数据源是GitHub Issues，这里包含了丰富的功能讨论和Bug报告。

登录Airbyte Cloud，进入“Sources”页面，点击“+ New source”。
在源连接器列表中搜索并选择“GitHub”。
认证：在Cloud版中，最简单的方式是点击“Authenticate your GitHub account”，按提示授权。如果使用开源版或Token方式，则需要填写“Personal Access Token”。
配置：
- Repository：填写你想同步的仓库，例如airbytehq/airbyte。
- Start Date：设置一个开始日期，例如2023-01-01T00:00:00Z，以限制拉取历史数据的范围，避免初次同步数据量过大。
点击“Set up source”，Airbyte会测试连接并拉取可用的数据流（Stream）。你会看到诸如issues,pull_requests,commits等流。我们只关心issues。

3.3 第二步：配置Pinecone向量数据库目的地

这是Airbyte最强大的新功能之一，它自动化了数据预处理流程。

在Airbyte中进入“Destinations”页面，点击“+ New destination”。
搜索并选择“Vector Database (powered by LangChain)”。
配置嵌入（Embedding）：
- Embedding Provider：选择“OpenAI”。
- OpenAI API Key：填入你的OpenAI API Key。
- Chunk Size：设置为1000。这个数字指的是Token数量，大约相当于750个英文单词或500个汉字。这是文本分割的大小，需要根据你文档的平均长度和LLM的上下文窗口来调整。1000是一个适用于多种场景的平衡值。
- Text Fields：这里至关重要。它告诉Airbyte哪些字段的内容需要被转换成向量。对于GitHub Issues，我们填写title, body。这意味着每个Issue的标题和正文会被拼接、分割、然后向量化。其他字段（如created_at,state）将作为元数据（Metadata）存储，不参与向量化，但会随向量一起被检索出来。
配置索引（Indexing）：
- Vector Database Provider：选择“Pinecone”。
- Pinecone API Key和Pinecone Environment：从你的Pinecone控制台“API Keys”页面获取。
- Pinecone Index：填写你在Pinecone创建的索引名称。
点击“Set up destination”完成配置。

Airbyte在幕后做了什么？当你建立连接并开始同步后，Airbyte会自动执行以下步骤，无需你写一行代码：

文本提取与拼接：从每条记录（一个Issue）中提取title和body字段，合并成一个长文本。
智能分块：将这个长文本按你设定的Chunk Size（1000 tokens）分割成多个语义连贯的文本块。这确保了每个向量代表一个相对独立的信息单元，能更精准地被检索。
批量向量化：调用你配置的OpenAI Embedding API，将每个文本块转换成1536维的向量。
索引上传：将生成的向量，连同该文本块对应的所有元数据（如issue编号、创建时间、状态等），一并上传到Pinecone索引中。

3.4 第三步：创建连接并执行首次同步

回到Airbyte主界面，点击“+ New connection”。
选择你刚创建的GitHub源和Pinecone向量数据库目的地。
在配置连接时，关键一步是选择要同步的流。只勾选issues流，因为我们只需要问题数据。
同步模式：选择“Incremental | Append + Dedup”。这是生产环境的最佳实践。Airbyte会追踪每个Issue的更新时间，后续同步只拉取变更过的Issue，并在Pinecone中更新对应的向量，避免数据重复和浪费计算资源。
保存并触发首次同步。根据Issue数量，可能需要几分钟到几十分钟。你可以在Pinecone控制台的索引统计中看到向量数量的增长。

首次同步完成后，你的GitHub Issues知识就已经以“向量”的形式，存储在Pinecone中，随时准备被语义检索。

3.5 第四步：构建本地问答机器人（LangChain核心）

数据就绪，现在用LangChain搭建一个简单的命令行问答程序。

安装依赖：
```
pip install pinecone-client langchain openai python-dotenv
```
我额外添加了python-dotenv，用于管理环境变量，这是一个好习惯。

创建环境变量文件.env：

OPENAI_API_KEY=sk-你的OpenAI密钥 PINECONE_API_KEY=你的Pinecone密钥 PINECONE_ENV=你的Pinecone环境（如gcp-starter） PINECONE_INDEX=你的索引名称

编写核心聊天脚本chatbot_simple.py：

import os from dotenv import load_dotenv import pinecone from langchain.embeddings import OpenAIEmbeddings from langchain.llms import OpenAI from langchain.vectorstores import Pinecone from langchain.chains import RetrievalQA # 加载环境变量 load_dotenv() # 初始化嵌入模型和Pinecone embeddings = OpenAIEmbeddings() pinecone.init( api_key=os.getenv("PINECONE_API_KEY"), environment=os.getenv("PINECONE_ENV") ) index = pinecone.Index(os.getenv("PINECONE_INDEX")) # 创建LangChain的Pinecone向量存储对象 # `text` 是我们在Airbyte中指定的包含向量化文本的元数据字段名 vector_store = Pinecone(index, embeddings.embed_query, "text") # 构建RetrievalQA链 # `chain_type="stuff"` 是最简单的方式，将所有检索到的文档内容“塞”进提示词 # `temperature=0` 使输出更确定、更少随机性 qa_chain = RetrievalQA.from_chain_type( llm=OpenAI(temperature=0), chain_type="stuff", retriever=vector_store.as_retriever(search_kwargs={"k": 4}) # 检索最相关的4个片段 ) print("知识库机器人已启动。输入你的问题（输入‘退出’结束）：") while True: query = input("\n你问：") if query.lower() in ['退出', 'exit', 'quit']: break answer = qa_chain.run(query) print(f"\n机器人答：{answer}")

运行测试：
```
python chatbot_simple.py
```
尝试提问，例如：“How to authenticate a connector using OAuth?”。你会看到机器人从GitHub Issues中找到了相关信息并生成了答案。

当前版本的局限性：这个基础版本能工作，但答案就像个“黑盒”，你不知道信息从哪来，也无法针对不同来源的数据（如文档 vs Issue）做差异化处理。答案可能笼统或缺乏上下文。

3.6 第五步：优化提示词与答案定制

为了让机器人更专业、更可信，我们需要定制提示词，并让它在答案中引用来源。

创建优化版脚本chatbot_advanced.py：

import os from dotenv import load_dotenv import pinecone from langchain.embeddings import OpenAIEmbeddings from langchain.llms import OpenAI from langchain.vectorstores import Pinecone from langchain.chains import RetrievalQA from langchain.prompts import PromptTemplate from langchain.schema import Document load_dotenv() # ... 初始化Pinecone和vector_store的代码与之前相同 ... # 1. 自定义文档格式化函数 class CustomDocumentPrompt: """根据数据来源，格式化文档内容，加入元数据信息""" @staticmethod def format_document(doc: Document) -> str: metadata = doc.metadata stream = metadata.get("_airbyte_stream", "") content = doc.page_content[:500] # 截取前500字符作为片段 if stream == "issues": issue_num = metadata.get("number", "N/A") state = metadata.get("state", "N/A") return f"[来源：GitHub Issue #{issue_num} (状态：{state})]\n片段：{content}\n" elif stream == "DatasetItems": # 来自Apify文档的数据 page_title = metadata.get("data.pageTitle", "N/A") return f"[来源：官方文档 - {page_title}]\n片段：{content}\n" elif stream in ["threads", "channel_messages"]: # 来自Slack的数据 user = metadata.get("user", "N/A") return f"[来源：Slack用户 '{user}']\n片段：{content}\n" else: return f"[来源：未知]\n片段：{content}\n" # 2. 自定义主提示词模板 prompt_template = """ 你是一个专业的连接器开发助手，专门回答关于Airbyte连接器开发的问题。 请严格根据以下提供的上下文信息来回答问题。上下文可能来自官方文档、GitHub Issues或社区讨论。 如果上下文中的信息足以回答问题，请给出清晰、准确的答案，并务必在答案末尾注明信息来源（例如：“该信息来源于GitHub Issue #12345”或“根据官方文档《XXX》章节”）。 如果上下文信息不足以回答该问题，请直接说“根据现有知识库，我无法回答这个问题”，不要编造信息。 上下文信息： {context} 问题：{question} 请用中文回答。 专业回答： """ PROMPT = PromptTemplate( template=prompt_template, input_variables=["context", "question"] ) # 3. 构建增强的QA链 qa_chain = RetrievalQA.from_chain_type( llm=OpenAI(temperature=0, model_name="gpt-3.5-turbo"), chain_type="stuff", retriever=vector_store.as_retriever(search_kwargs={"k": 5}), chain_type_kwargs={ "prompt": PROMPT, "document_prompt": PromptTemplate( input_variables=["page_content", "metadata"], template="{page_content}" # LangChain会传入metadata，我们在return_source_documents中处理 ) }, return_source_documents=True # 关键：返回检索到的源文档 ) print("增强版知识库机器人已启动。") while True: query = input("\n你问：") if query.lower() in ['退出', 'exit', 'quit']: break result = qa_chain({"query": query}) answer = result["result"] source_docs = result["source_documents"] print(f"\n机器人答：{answer}") print("\n--- 本次回答参考了以下片段 ---") for i, doc in enumerate(source_docs[:3]): # 显示前3个来源 formatted_source = CustomDocumentPrompt.format_document(doc) print(f"来源 {i+1}:\n{formatted_source}")

这个版本实现了：

来源标注：答案会说明信息来自文档、Issue还是Slack。
答案控制：明确指令LLM基于上下文回答，不知道就说不知道，减少幻觉。
来源追溯：在答案后打印出具体参考了哪些文本片段及其元数据，极大增强了可信度和可追溯性。

3.7 第六步：集成Slack，打造团队机器人

让机器人只在命令行运行不够酷，集成到Slack，让整个团队都能使用。

创建Slack App：
- 访问 api.slack.com/apps ，点击“Create New App”。
- 选择“From manifest”，粘贴一个简单的manifest（或手动配置）。
- 需要的主要权限（OAuth Scope）包括：app_mentions:read,channels:history,groups:history,im:history,mpim:history,chat:write。
- 安装应用到你的工作空间，获得Bot User OAuth Token(以xoxb-开头)。
- 在“Basic Information”页面，生成一个App-Level Token(以xapp-开头)，并赋予connections:write权限。

编写Slack机器人脚本slack_bot.py：

import os import logging from dotenv import load_dotenv from slack_sdk import WebClient from slack_sdk.socket_mode import SocketModeClient from slack_sdk.socket_mode.request import SocketModeRequest from slack_sdk.socket_mode.response import SocketModeResponse # 导入之前写好的qa_chain初始化代码，假设放在一个叫`core.py`的文件里 from core import qa_chain load_dotenv() logging.basicConfig(level=logging.INFO) # 初始化Slack客户端 slack_bot_token = os.getenv("SLACK_BOT_TOKEN") slack_app_token = os.getenv("SLACK_APP_TOKEN") web_client = WebClient(token=slack_bot_token) processed_messages = set() # 简单的去重集合 def handle_socket_mode_request(client: SocketModeClient, req: SocketModeRequest): """处理Slack Socket Mode事件""" if req.type == "events_api": event = req.payload.get("event", {}) event_id = req.payload.get("event_id") event_type = event.get("type") # 只处理提及机器人的消息，且避免重复处理 if event_type == "app_mention" and event_id not in processed_messages: processed_messages.add(event_id) channel = event.get("channel") text = event.get("text") # 移除@机器人的部分 query = text.replace(f'<@{event.get("user")}>', '').strip() if query: try: logging.info(f"Processing query: {query}") result = qa_chain({"query": query}) answer = result["result"] # 在Slack中，可以格式化回答 response_text = f"*问题*: {query}\n\n*回答*: {answer}\n\n _（回答基于内部知识库生成）_" except Exception as e: logging.error(f"Error processing query: {e}") response_text = "抱歉，处理你的问题时出了点错。" # 发送回Slack频道 web_client.chat_postMessage(channel=channel, text=response_text) # 必须返回响应 client.send_socket_mode_response(SocketModeResponse(envelope_id=req.envelope_id)) if __name__ == "__main__": socket_client = SocketModeClient( app_token=slack_app_token, web_client=web_client ) socket_client.socket_mode_request_listeners.append(handle_socket_mode_request) socket_client.connect() logging.info("🤖 Slack Bot is now running and listening for mentions...") from threading import Event Event().wait() # 保持主线程运行

更新.env文件，加入Slack令牌：

SLACK_BOT_TOKEN=xoxb-你的bot令牌 SLACK_APP_TOKEN=xapp-你的app-level令牌

运行机器人：python slack_bot.py。然后在Slack频道中@你的机器人名字并提问吧！

3.8 第七步：扩展数据源——抓取文档与Slack历史

一个强大的知识库需要多源数据。我们用同样的模式，通过Airbyte添加更多源。

添加文档网站数据（使用Apify）：

注册Apify，使用其“Website Content Crawler”模板。
配置爬虫从你的文档首页开始（如https://docs.yourcompany.com/），设置链接选择器和范围，让它抓取所有文档页面，并提取标题和正文。
爬取完成后，在Apify中获得一个Dataset ID。
在Airbyte中，新建一个源，选择“Apify Dataset”，填入Dataset ID。
创建一个新的连接，指向同一个Pinecone向量数据库目的地。在目的地的配置中，更新“Text Fields”，加入Apify数据集中的字段，例如data.pageTitle, data.content。这样，文档内容也会被向量化并存入同一个索引，实现多源数据统一检索。

添加Slack历史消息：

在Airbyte中新建源，选择“Slack”。
使用OAuth或Token方式认证。
配置“Channel Filter”为你想要同步的频道（如#help-connector-development）。
创建连接，指向同一个Pinecone目的地。同样，更新目的地的“Text Fields”，加入Slack中的text字段。

现在，你的Pinecone索引中融合了来自GitHub、官方文档和Slack的异构数据。当用户提问时，检索系统会同时从所有这些来源中寻找最相关的片段，提供给LLM生成综合性的答案。

4. 生产环境考量与优化技巧

项目跑起来只是第一步，要真正好用、可靠，还需要考虑以下几点：

4.1 数据更新与增量同步

Airbyte的威力：这就是为什么我们使用Airbyte。对于GitHub和Slack这类支持增量同步的源，Airbyte可以配置为定时（如每小时）同步。它只会拉取上次同步后新增或修改的记录，极大节省了Embedding的API调用和Pinecone的写入操作。
文档更新策略：文档网站变化不频繁，可以设置为每天或每周同步一次，甚至手动触发。
Pinecone索引管理：Airbyte的向量数据库目的地会自动处理向量的更新和删除（通过_record_id）。确保你的Pinecone索引配置了合适的元数据索引，以支持高效的过滤查询。

4.2 检索质量调优

分块策略：Chunk Size=1000是通用起点。对于代码片段或短消息（如Slack），可能需要更小的块（如200）；对于长文档，可能需要更大的块（如2000）。可以尝试不同的尺寸，观察检索结果的相关性。
重叠（Overlap）：Airbyte目前可能不直接支持设置块重叠。高级用法中，可以在Airbyte同步后，再用自定义脚本对数据进行二次分块处理，在块之间保留少量重叠文字，可以防止一个概念被生硬地切分到两个块中。
元数据过滤：在检索时，可以利用元数据提高精度。例如，当用户明确问“未解决的Bug”时，可以在检索时添加过滤器metadata['state'] = 'open'。LangChain的Pinecone.as_retriever()支持filter参数。
多路检索（Hybrid Search）：除了向量相似性搜索，还可以结合关键词（BM25）搜索。Pinecone等向量库支持混合搜索，能同时利用语义和字面匹配，对于包含特定术语（如错误代码）的查询效果更好。

4.3 提示词工程与答案质量

迭代优化：你的提示词是机器人的“大脑”。根据实际问答效果不断调整它。比如，如果发现机器人总喜欢扩展上下文之外的信息，就在提示词中加强“严格基于上下文”的指令。
分源处理：就像我们在高级版脚本里做的，对不同来源的数据，在提示词中给予不同的权重或描述。例如，“GitHub Issue中的信息可能代表计划或问题，未必是已实现的功能”。
让LLM“引用”：在提示词中明确要求LLM在答案中引用来源的元数据（如Issue编号），并在最终输出前，用程序将元数据替换为可点击的链接（例如，将#26341替换为https://github.com/airbytehq/airbyte/issues/26341），用户体验会大幅提升。

4.4 成本与性能监控

Embedding成本：OpenAI的Embedding API按Token收费。增量同步是控制成本的关键。监控Airbyte同步作业的日志，了解每次同步处理的数据量。
Pinecone成本：免费套餐有读取次数和向量存储的限制。生产环境需要根据查询量（Reads）和向量数量选择合适套餐。Pinecone控制台有清晰的使用量图表。
GPT调用成本：每个问答都会调用一次Chat Completion API。可以通过缓存常见问题的答案、或设置对话轮次限制来优化。
延迟：整个流程的延迟主要来自：向量检索（Pinecone，通常<100ms）、GPT API调用（网络+生成时间，1-5秒）。对于Slack这类即时通讯工具，3-5秒的响应是可以接受的。如果要求更高，可以考虑使用更快的LLM或优化提示词减少生成长度。

5. 常见问题与故障排查

在实际搭建和运行中，你可能会遇到以下问题：

1. Airbyte同步失败，提示“Embedding error”

检查：OpenAI API Key是否正确，是否有额度。在Airbyte目的地配置中检查Key。
检查：文本字段（Text Fields）配置是否正确。字段名必须与源数据流中的字段名完全一致（区分大小写）。去源的“Schema”标签页确认字段名。

2. 机器人回答“我不知道”，但明明数据里有相关内容

检查检索数量：search_kwargs={"k": 5}中的k值可能太小，尝试增加到10或20。
检查分块大小：Chunk Size可能太大，导致一个块包含太多不相关信息，稀释了核心概念的向量表示。尝试减小到500。
检查问题表述：尝试用更接近文档原文的关键词或句式提问，测试检索是否有效。这能帮你判断是检索问题还是LLM生成问题。
查看源文档：启用return_source_documents=True，打印出实际检索到的文本片段。可能检索到的片段本身就不包含答案，或者答案被分割在了不同的块中。

3. Pinecone检索返回空结果

检查索引名称和环境：确保代码中的PINECONE_INDEX和PINECONE_ENV与创建时完全一致。
检查向量维度：创建Pinecone索引时设置的维度必须与Embedding模型维度一致（OpenAItext-embedding-ada-002是1536）。
确认数据已写入：去Pinecone控制台，在索引的“Browse”页面，查看是否有向量数据。也可以用其简单的查询工具测试一下。

4. Slack机器人没有反应

检查Socket Mode：确保使用的是SocketModeClient并正确配置了xapp-开头的App-Level Token。传统RTM方式已逐渐被废弃。
检查权限：确认Slack App安装时授予了app_mentions:read和chat:write权限。
检查事件订阅：在Slack App配置页面的“Event Subscriptions”中，确保“Enable Events”已打开，并订阅了app_mention事件，且请求URL配置正确（Socket Mode无需公网URL，但需开启）。
查看日志：运行机器人时打开logging.basicConfig(level=logging.DEBUG)查看详细连接和事件信息。

5. 答案看起来混乱，混合了多个不相关主题

元数据过滤：这是引入元数据过滤的好时机。例如，如果用户问的是“文档中说...”，你可以在检索时添加过滤器{“_airbyte_stream”: {"$eq": "DatasetItems"}}，只从文档数据中搜索。
优化分块：混乱的答案往往源于糟糕的分块。一个文本块可能包含两个独立主题。考虑使用更智能的基于语义或标点的分块库（如langchain.text_splitter.RecursiveCharacterTextSplitter），但请注意这需要在Airbyte流程之外进行预处理。

这个项目搭建的过程，本质上是在构建一个现代化的企业知识中枢。它不再是一个个孤立的文档库、聊天群和工单系统，而是一个通过语义理解串联起来的整体。通过Airbyte实现数据自动入湖，通过向量数据库实现智能检索，再通过大语言模型实现自然交互，这套组合拳为我们处理海量、异构的私有数据提供了一个强大而灵活的范式。你可以轻松地将数据源替换成Notion、Confluence、Jira或你的数据库，快速为不同部门定制专属的智能问答助手。

查看全文

http://www.cnnetsun.cn/news/2657286.html