当前位置：首页 > news >正文

Agentic RAG实战：LangGraph+Groq+FastAPI构建可推理的智能问答系统

news 2026/6/5 9:53:10

1. 项目概述：这不是普通RAG，而是一套能自主思考、分步决策的智能问答系统

“Implementing Agentic RAG using LangGraph, Groq & FastAPI”——光看标题，你可能以为这只是又一个用向量数据库查文档再喂给大模型的常规RAG流程。但实际完全不是。Agentic RAG 的核心在于“代理性”（agentic），它让整个检索-推理-生成链条具备了目标导向、多步规划、自我反思与动态调整的能力。它不再被动等待用户提问后一次性执行“检索→重排→提示词拼接→调用LLM→返回答案”，而是像一位经验丰富的研究员：先拆解问题本质，判断是否需要查资料、是否需验证中间结论、是否该换关键词重试、甚至主动追问用户模糊点。LangGraph 提供了构建这种有状态、可中断、可回溯的图状工作流的底层能力；Groq 则以毫秒级 LPU 推理速度，让每一步“思考”几乎无感知延迟——实测在 Llama-3-70B 上，单次 token 生成平均仅 4.2ms，整轮复杂推理耗时稳定压在 800ms 内；FastAPI 不仅是 API 封装层，更是承载会话状态、流式响应、并发控制与错误熔断的生产级骨架。这个组合真正解决了传统 RAG 在处理“需要多跳推理”“存在矛盾信息”“用户意图模糊”三类典型场景时的硬伤。适合正在落地企业知识库、技术文档助手、合规审计辅助等对逻辑严谨性、过程可解释性、响应实时性有强要求的工程师与AI产品经理。如果你还在用 LangChain 的 Chain.run() 硬塞长提示词，或者为向量检索召回不准反复调 cosine 阈值，那这套方案会直接刷新你对 RAG 工程化的认知边界。

2. 整体架构设计与技术选型逻辑：为什么必须是这三者组合？

2.1 为什么放弃 LangChain Chain/Agent，转向 LangGraph？

LangChain 的 AgentExecutor 虽然也支持工具调用，但其底层是线性状态机：Action → Observation → Parse → Next Action。一旦某步 Observation 返回异常（比如向量库超时、格式解析失败），整个链就中断，缺乏重试策略、分支判断和状态快照。而 LangGraph 的核心抽象是State Graph，每个节点（Node）接收完整 State 对象，可读写任意字段，并通过 Condition（条件函数）决定流向哪个下一节点。我们定义的 State 包含：

class AgentState(TypedDict): question: str # 原始用户问题 plan: List[str] # 当前执行计划（如 ["检索API文档", "对比v2/v3参数差异"] context: List[str] # 已获取的上下文片段（带来源标识） answer: Optional[str] # 当前暂定答案 steps: int # 已执行步数（用于防死循环） error: Optional[str] # 最近一次错误 needs_clarification: bool # 是否需向用户追问

这个结构让“反思”成为一等公民：当生成答案后，专门设一个reflect_node节点，用小模型（如 Gemma-2B）检查答案是否与 context 矛盾、是否遗漏关键约束。若发现问题，不直接报错，而是更新plan字段，插入新检索任务，重新进入循环。这种显式状态管理，是构建可靠 Agentic RAG 的地基。我试过用 LangChain 的 ReAct Agent 模拟同样逻辑，代码量翻倍且调试困难——因为状态散落在agent_scratchpad和intermediate_steps里，无法统一追踪。

2.2 为什么选 Groq 而非本地 vLLM 或云 API？

很多人第一反应是“用 vLLM 自托管，省钱”。但实测下来，在 Agentic RAG 场景下，Groq 的 LPU 架构带来三个不可替代优势：

确定性低延迟：vLLM 在高并发时 P99 延迟波动剧烈（实测 50 QPS 下 P99 达 2.1s），而 Groq 的 LPU 是纯硬件调度，同一模型、同一批 prompt，100 次请求的延迟标准差仅 ±12ms。这对需要多步串行调用的 Agent 至关重要——如果第一步检索后生成 plan 耗时 1.5s，第二步又卡住，用户早失去耐心。
零显存管理开销：vLLM 需手动配置tensor_parallel_size、max_model_len，稍有不慎就 OOM。Groq 完全屏蔽硬件细节，groq.Llama3_70b实例开箱即用，连 FlashAttention 都不用配。我们曾因 vLLM 的max_num_seqs=256设置不当，导致第 257 个请求触发CUDA out of memory，而 Groq 同负载下稳如磐石。
原生支持结构化输出：Groq 的response_format={"type": "json_object"}可强制 LLM 输出合法 JSON，无需后期正则清洗。在 Agent 的plan_node中，我们要求模型严格输出{"steps": [{"action": "retrieval", "query": "..."}, ...]}，Groq 的 JSON 模式成功率 99.3%，而本地 Llama-3-70B + vLLM 的 JSON 模式需额外加 3 轮 retry 才达标。

提示：Groq 的免费额度（每月 500 万 token）足够支撑中小团队日均 2000 次复杂查询，远超初期验证需求。别被“云服务不稳定”的刻板印象误导——我们连续 30 天压测，API 错误率 0.017%，全部为客户端超时（已通过 FastAPI 的httpx.AsyncClient配置timeout=15.0解决）。

2.3 为什么 FastAPI 是唯一选择？Flask 或 Django 行不行？

Flask 缺乏原生异步支持，@app.route默认阻塞，即使加async def也要配合loop.run_in_executor，对 Agent 这种需同时处理用户流式响应、后台检索、状态更新的场景，极易引发事件循环竞争。Django 则过于厚重，其 ORM 和中间件栈对纯 API 服务是冗余负担。FastAPI 的三大杀招直击痛点：

原生 async/await 支持：@app.post("/chat")可直接声明async def chat_endpoint(state: AgentState)，所有 I/O（HTTP 调用、向量库查询、Groq 请求）天然异步，无需额外线程池。
Pydantic V2 深度集成：AgentState 的 TypedDict 定义可直接作为请求体模型，自动完成类型校验、缺失字段默认值填充（如steps: int = 0）、嵌套对象解析。比手写 Flask 的request.get_json()+if not key in data:安全十倍。
WebSockets 开箱即用：用户提问后，Agent 可能需 3~5 秒完成多步推理。FastAPI 的WebSocket端点允许服务端主动推送每一步进展（如"status": "retrieving", "query": "如何配置SSL证书"），前端实时显示思考过程，极大提升体验可信度。这是 Flask/Django 需要额外引入 Socket.IO 才能勉强实现的功能。

3. 核心模块拆解与实操要点：从状态定义到流式响应

3.1 LangGraph State Graph 的构建：四节点闭环如何运转？

Agentic RAG 的图结构并非越复杂越好。我们经过 7 轮 AB 测试，最终收敛为最简有效的四节点闭环：

节点名	输入 State 字段	核心逻辑	输出 State 更新
`plan_node`	`question`	调用 Groq 分析问题，生成可执行步骤列表（如`[{"action":"retrieval","query":"fastapi websocket 心跳配置"}]`）	`plan`,`steps=1`
`retrieve_node`	`plan[0]`	解析当前 step 的 query，调用 ChromaDB 向量检索（top_k=3），去重合并结果	`context += [doc.content for doc in results]`,`plan = plan[1:]`
`generate_node`	`question`,`context`	拼接 prompt：“基于以下资料回答：{context}。问题：{question}。” 调用 Groq 生成答案	`answer`,`steps += 1`
`reflect_node`	`answer`,`context`	用轻量模型（Gemma-2B）检查：答案是否引用 context 中不存在的信息？是否与 context 明确矛盾？	`error="答案与资料冲突"`或`needs_clarification=True`

关键实操细节：

Plan 节点的 Prompt 工程：不能只让模型“列出步骤”，必须约束格式。我们使用的 system prompt 是：

你是一个严谨的技术文档分析专家。请将用户问题分解为最多3个原子操作步骤。 每个步骤必须是明确的检索动作，query 必须包含具体技术名词和版本号（如"fastapi 0.112 websocket ping interval"）。 严格按JSON格式输出，不要任何额外文本：{"steps": [{"action": "retrieval", "query": "..."}, ...]}

这样生成的 query 准确率从 62% 提升至 91%。实测发现，若不限制“必须含版本号”，模型常生成泛泛的“websocket 配置”，导致向量库召回噪声过大。

Retrieve 节点的上下文去重：ChromaDB 返回的 top_k=3 文档常有重叠内容（如不同章节都描述同一 API）。我们加入简单文本相似度过滤：用sentence-transformers/all-MiniLM-L6-v2计算每对文档 embedding 的余弦相似度，若 >0.85，则丢弃相似度高的后者。这使最终输入 generate_node 的 context 信息密度提升 3.2 倍。
Reflect 节点的双模型策略：为什么不用大模型自省？因为成本太高。我们用 Groq 的 Gemma-2B（$0.07/百万 token）做初筛，仅当它判定“需澄清”或“有矛盾”时，才触发 Llama-3-70B（$0.59/百万 token）进行深度归因分析。实测此策略将 reflect 环节成本降低 68%，且未牺牲准确率。

3.2 Groq 集成：如何榨干 LPU 性能并规避坑点？

Groq 的 Python SDK 极简，但隐藏着几个关键配置点：

from groq import AsyncGroq client = AsyncGroq( api_key=os.getenv("GROQ_API_KEY"), # 关键！必须设置，否则默认 timeout=60s，Agent 等不及就超时 timeout=httpx.Timeout(15.0, connect=10.0), # 关键！启用 HTTP/2，LPU 服务器原生支持，提速约12% http2=True, )

调用时，务必使用stream=True并配合aiter：

async def call_groq(prompt: str, model: str) -> str: stream = await client.chat.completions.create( messages=[{"role": "user", "content": prompt}], model=model, temperature=0.1, # Agent 需确定性，禁用随机性 stream=True, response_format={"type": "json_object"} if "json" in prompt else None, ) full_response = "" async for chunk in stream: if chunk.choices[0].delta.content: full_response += chunk.choices[0].delta.content # 此处可将 token 实时推送给 WebSocket await websocket.send_text(json.dumps({"token": chunk.choices[0].delta.content})) return full_response

避坑经验：

不要用response_format="json_object"强制所有调用：Plan 节点需要 JSON，但 Generate 节点输出自然语言，若强行 JSON，模型会生硬包裹{ "answer": "..." }，破坏流式体验。我们通过if "json" in prompt动态开关，精准控制。
Temperature 必须设为 0.1：Agentic RAG 的每一步都是确定性任务（检索、生成、判断），temperature=0.8 会导致 plan_node 生成不一致的步骤顺序，引发图执行混乱。实测 0.1 是稳定性与灵活性的最佳平衡点。
避免在同一个create()调用中混用 streaming/non-streaming：Groq 的 streaming 接口与非 streaming 接口底层路由不同，混用可能导致连接复用失败。我们为 streaming 场景（用户响应）和 non-streaming 场景（后台 reflect 判断）分别创建 client 实例。

3.3 FastAPI 服务层：如何承载状态、流式与并发？

FastAPI 的核心在于将 LangGraph 的 State Graph 封装为可复用的AgentRunner类：

class AgentRunner: def __init__(self, graph: CompiledGraph): self.graph = graph # 使用内存字典模拟会话存储（生产环境替换为 Redis） self.sessions: Dict[str, AgentState] = {} async def run(self, session_id: str, question: str) -> AsyncGenerator[str, None]: # 初始化或恢复状态 if session_id not in self.sessions: self.sessions[session_id] = AgentState( question=question, plan=[], context=[], answer=None, steps=0, error=None, needs_clarification=False ) # LangGraph 的 async_stream 是关键！它按节点粒度 yield 事件 async for event in self.graph.astream( self.sessions[session_id], stream_mode="values" # 每次 yield 更新后的完整 State ): # 过滤出关键字段，转为前端友好的 JSON yield json.dumps({ "step": "plan" if "plan" in event else "retrieve" if "context" in event else "generate", "content": event.get("answer", "") or event.get("context", [""])[-1][:100] + "...", "progress": min(event.get("steps", 0), 5) / 5 # 进度条 }) # 清理过期会话（实际用 Redis 的 TTL） if self.sessions[session_id]["steps"] > 10: del self.sessions[session_id]

然后在路由中暴露：

@app.websocket("/ws/{session_id}") async def websocket_endpoint(websocket: WebSocket, session_id: str): await websocket.accept() try: async for message in agent_runner.run(session_id, "初始问题占位符"): await websocket.send_text(message) except WebSocketDisconnect: pass @app.post("/chat") async def chat_endpoint(request: ChatRequest): # 生成唯一 session_id，启动 Agent session_id = str(uuid4()) # 启动后台任务，避免阻塞主请求 asyncio.create_task( run_agent_background(session_id, request.question) ) return {"session_id": session_id, "status": "started"}

这里的关键是astream的stream_mode="values"：它让 LangGraph 每次节点执行完毕后，就 yield 一次更新后的完整 State，而非等整个图跑完。这使得前端能实时看到“正在规划...”、“正在检索...”、“正在生成答案...”，而不是黑屏 5 秒后突然弹出全文。

注意：FastAPI 的BackgroundTasks不能直接 await，必须用asyncio.create_task启动独立协程。我们曾在此踩坑，导致/chat接口在 Agent 运行时阻塞，无法处理其他请求。

4. 完整部署与实操流程：从本地验证到 Docker 生产化

4.1 本地开发环境搭建：5 分钟跑通最小闭环

安装依赖（requirements.txt）：

langgraph==0.1.42 groq==0.9.0 fastapi==0.115.0 uvicorn==0.32.0 chromadb==0.4.24 sentence-transformers==2.7.0 python-dotenv==1.0.1

准备测试数据：下载 FastAPI 官方文档 HTML，用unstructured库提取文本，切分为 512 字符块，存入 ChromaDB：

from chromadb import PersistentClient client = PersistentClient(path="./chroma_db") collection = client.create_collection("fastapi_docs") # 假设 docs 是切分好的文本列表 collection.add( documents=docs, ids=[f"id_{i}" for i in range(len(docs))], embeddings=model.encode(docs).tolist() # model 来自 sentence-transformers )

启动服务：

# 设置环境变量 export GROQ_API_KEY="your_key_here" export CHROMA_PATH="./chroma_db" # 启动 FastAPI uvicorn main:app --reload --host 0.0.0.0:8000

测试请求（curl）：
```
curl -X POST "http://localhost:8000/chat" \ -H "Content-Type: application/json" \ -d '{"question": "FastAPI WebSocket 如何设置心跳间隔？"}'
```
返回{"session_id": "xxx", "status": "started"}后，即可用 WebSocket 客户端连接ws://localhost:8000/ws/xxx查看流式输出。

4.2 Docker Compose 生产部署：分离向量库与 API 服务

生产环境必须解耦。我们采用三容器架构：

# docker-compose.yml version: '3.8' services: api: build: . ports: - "8000:8000" environment: - GROQ_API_KEY=${GROQ_API_KEY} - CHROMA_SERVER_HOST=chroma - CHROMA_SERVER_HTTP_PORT=8000 depends_on: - chroma restart: unless-stopped chroma: image: ghcr.io/chroma-core/chroma:0.4.24 ports: - "8000:8000" environment: - CHROMA_SERVER_AUTH_CREDENTIALS_PROVIDER=chromadb.auth.providers.ConfigFileCredentialsProvider - CHROMA_SERVER_AUTH_CREDENTIALS=chroma:chroma volumes: - ./chroma_data:/chroma_data restart: unless-stopped nginx: image: nginx:alpine ports: - "443:443" volumes: - ./nginx.conf:/etc/nginx/nginx.conf - ./ssl:/etc/nginx/ssl depends_on: - api

关键配置点：

ChromaDB 的持久化：volumes将./chroma_data挂载到容器内，确保重启后向量库不丢失。注意CHROMA_SERVER_AUTH_CREDENTIALS必须设置，否则 FastAPI 连接时会报 401。

Nginx 的 WebSocket 支持：nginx.conf中必须添加：

location /ws/ { proxy_pass http://api; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; proxy_set_header Host $host; }

缺少Upgrade和Connection头，WebSocket 连接会降级为 HTTP，导致流式中断。

API 容器的健康检查：在Dockerfile中加入：

HEALTHCHECK --interval=30s --timeout=3s --start-period=5s --retries=3 \ CMD curl -f http://localhost:8000/health || exit 1

配合 Kubernetes 的 livenessProbe，可实现故障自动重启。

4.3 性能压测与调优：实测 200 QPS 下的稳定性

我们用k6对/chat接口进行 5 分钟压测（200 虚拟用户）：

// script.js import http from 'k6/http'; import { check, sleep } from 'k6'; export const options = { vus: 200, duration: '5m', }; export default function () { const res = http.post('http://localhost:8000/chat', JSON.stringify({question: "FastAPI 如何处理 CORS？"}), { headers: { 'Content-Type': 'application/json' } } ); check(res, { 'status was 200': (r) => r.status == 200 }); sleep(1); }

结果（关键指标）：

指标	数值	说明
平均响应时间	842ms	符合预期（plan+retrieval+generate+reflect 四步）
P95 延迟	1.2s	在可接受范围（用户容忍上限约 2s）
错误率	0.0%	全部请求成功
CPU 使用率	68%	未达瓶颈（8 核 CPU）
内存占用	1.2GB	主要消耗在 ChromaDB 的内存映射

调优发现：

ChromaDB 的hnsw:space参数：默认cosine，改为ip（内积）后，检索速度提升 22%，且对短 query 更鲁棒。修改方式：collection = client.create_collection(..., metadata={"hnsw:space": "ip"})。
FastAPI 的workers数量：Uvicorn 默认 1 worker，200 QPS 下 CPU 利用率仅 35%。增加到--workers 4后，P95 延迟降至 980ms，CPU 利用率升至 68%，资源利用更均衡。

Groq 的并发限制：Groq 免费层限 30 RPS。当压测超过此值，会返回429 Too Many Requests。我们在 FastAPI 中加入简单令牌桶：

from slowapi import Limiter from slowapi.util import get_remote_address limiter = Limiter(key_func=get_remote_address) app.state.limiter = limiter @app.post("/chat") @limiter.limit("30/minute") async def chat_endpoint(...):

5. 常见问题与排查技巧实录：那些文档里不会写的坑

5.1 LangGraph 状态丢失：为什么`astream`有时不 yield 任何事件？

现象：调用graph.astream()后，协程直接结束，无任何yield，answer字段为空。

根因：LangGraph 的CompiledGraph在初始化时，若未正确设置interrupt_before或interrupt_after，且图中存在无出边的节点（如generate_node后没接reflect_node），则图执行会在该节点后静默终止。

解决：强制定义图的终点。在build_graph()中：

graph = StateGraph(AgentState) # ... 添加节点 graph.set_entry_point("plan_node") # 关键！必须设置 finish point，否则可能提前退出 graph.set_finish_point("generate_node") # 或 "reflect_node" # 若需循环，用 add_conditional_edges 指向自身 graph.add_conditional_edges( "reflect_node", should_continue, { "continue": "plan_node", # 继续循环 "end": END # 结束 } )

5.2 Groq JSON 模式失效：为什么`response_format={"type": "json_object"}`仍返回非 JSON？

现象：Plan 节点返回{"steps": [...]}，但偶尔夹杂Here is the plan:前缀，导致json.loads()报错。

根因：Groq 的 JSON 模式并非 100% 强制，当模型置信度低时会“破戒”。官方文档明确说明：“JSON mode increases likelihood, but does not guarantee validity”。

解决：三层防护：

Prompt 层：在 system prompt 末尾加硬性指令：最后，仅输出纯JSON，不要任何其他字符，包括引号、换行、空格。

SDK 层：捕获json.JSONDecodeError，对返回文本做正则清洗：

import re def extract_json(text: str) -> dict: # 匹配 {...} 或 [...] 的最外层 match = re.search(r'(\{.*\}|\[.*\])', text, re.DOTALL) if match: return json.loads(match.group(1)) raise ValueError("No valid JSON found")

重试层：清洗失败时，自动重试（最多 2 次），每次 retry 降低temperature0.05。

5.3 FastAPI WebSocket 断连：为什么用户页面频繁显示“连接已关闭”？

现象：前端 WebSocket 连接建立后，约 30 秒无消息自动断开。

根因：Nginx 默认proxy_read_timeout为 60 秒，但 FastAPI 的websocket.send_text()若无数据发送，连接会被 Nginx 认为 idle 而关闭。

解决：在nginx.conf中为 WebSocket location 单独配置：

location /ws/ { proxy_pass http://api; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; proxy_set_header Host $host; # 关键！延长超时 proxy_read_timeout 300; # 5分钟 proxy_send_timeout 300; }

同时，FastAPI 侧在run()方法中，每 25 秒发送一次心跳包：

async def run(self, session_id: str, question: str) -> AsyncGenerator[str, None]: last_heartbeat = time.time() while True: # ... 正常 astreaam 逻辑 if time.time() - last_heartbeat > 25: yield json.dumps({"type": "heartbeat", "ts": int(time.time())}) last_heartbeat = time.time() # ...

5.4 向量检索召回率低：为什么明明文档里有答案，却检索不到？

现象：用户问“FastAPI 如何禁用 docs”，ChromaDB 返回的 top_k=3 文档全是关于Swagger UI的配置，未命中docs_url=None的关键句。

根因：原始文档切块时，将docs_url=None和其上下文（如“禁用交互式 API 文档”）分在了不同块，导致语义断裂。向量模型无法理解跨块关联。

解决：改用滑动窗口重叠切分：

def split_with_overlap(text: str, chunk_size: int = 512, overlap: int = 128) -> List[str]: chunks = [] start = 0 while start < len(text): end = start + chunk_size if end > len(text): end = len(text) chunks.append(text[start:end]) start += chunk_size - overlap # 重叠 128 字符 return chunks

实测重叠切分后，关键术语召回率从 54% 提升至 89%。代价是向量库体积增大 2.3 倍，但 ChromaDB 的内存占用仅增 15%，可接受。

5.5 生产环境内存泄漏：为什么服务运行 24 小时后 OOM？

现象：Docker 容器内存持续增长，从 1.2GB 涨至 4GB 后崩溃。

根因：FastAPI 的BackgroundTasks中，若 AgentRunner 的sessions字典未及时清理，旧 session 的context（字符串列表）和plan（嵌套字典）会持续驻留内存。

解决：双重清理机制：

主动清理：在generate_node成功后，将context截断为仅保留最后 3 个片段：
```
state["context"] = state["context"][-3:] # 只留最新三次检索结果
```

被动清理：为每个 session 添加 TTL，用asyncio.create_task启动定时清理：

async def cleanup_session(self, session_id: str, ttl_seconds: int = 300): await asyncio.sleep(ttl_seconds) if session_id in self.sessions: del self.sessions[session_id] # 在 run() 中调用 asyncio.create_task(self.cleanup_session(session_id))

6. 实际落地效果与后续演进方向：从可用到好用

这套 Agentic RAG 在我们内部技术文档助手上线后，真实数据如下：

用户问题解决率：从传统 RAG 的 68% 提升至 89%。提升主要来自多跳推理（如“对比 FastAPI 0.110 和 0.112 的 WebSocket API 变化”），传统 RAG 因单次检索无法覆盖两个版本，而 Agent 可自动拆解为两次检索。
平均响应时长：842ms，比用户期望的 2s 快 58%，且 95% 的请求在 1.2s 内完成，符合“瞬时反馈”心理预期。
用户满意度（NPS）：从 32 分（传统 RAG）跃升至 67 分。访谈中，用户高频提到“它会告诉我正在做什么，而不是黑屏等结果”，证明流式状态推送的价值远超单纯提速。

后续我们正推进三个方向：

引入外部工具动态扩展：当前 Agent 只能检索向量库。下一步接入 GitHub API，当用户问“这个 bug 在哪个 PR 修复的？”，Agent 可自动调用GET /repos/{owner}/{repo}/issues/{issue_number}/events获取关联 PR，再用 Groq 归纳结论。这需要扩展 LangGraph 的ToolNode，并设计安全的工具调用沙箱。
混合检索策略：目前纯向量检索。计划加入 BM25 关键词检索作为 fallback：当向量检索 top_k=3 的相似度均低于 0.65 时，自动触发hybrid_retrieve_node，用rank_bm25库对全文做关键词匹配，取交集提升召回鲁棒性。
用户反馈闭环学习：在前端答案下方增加 👍/👎 按钮。当用户点👎，后端自动记录question、answer、context三元组，存入反馈队列。每周用这些数据微调reflect_node的 Gemma-2B 模型，让自省能力持续进化。