当前位置：首页 > news >正文

阿里面试官冷笑：“现在上下文窗口都 200 万 token 了，你的 RAG 还有存在的必要吗？“ 我算了一笔账，他沉默了

news 2026/6/4 2:33:43

这个问题是 2025 年下半年以来被问得最多的 RAG 面试题，没有之一。

原因很简单：Gemini 的上下文窗口已经到了 200 万 token，Claude 100K 起步，GPT-4o 也有 128K。既然能把几十万字的文档一股脑塞进上下文里，为什么还要费劲搭一套检索+向量数据库+Rerank 的 RAG 系统？

上周有个学员去阿里面大模型应用岗。他做的是一套企业知识库系统，简历上写了"基于 RAG 架构实现企业文档问答，支持 5000 份文档检索"。面试官看完直接问：

“你的知识库有 5000 份文档。现在 Gemini 2.5 Pro 的上下文窗口是 200 万 token。你算过 5000 份文档一共多少 token 吗？”

他说：“没仔细算过，应该挺多的。”

面试官：“如果你的文档平均每份 3000 字，5000 份就是 1500 万字，大约 2000 万 token。确实超了。但如果你的文档只有 500 份呢？500 份 × 3000 字 = 150 万字，大约 200 万 token——刚好塞进去。那你还需要 RAG 吗？”

他停了一下：“可能不需要了……但长上下文成本很高吧？”

面试官冷笑：“你算过吗？你的 RAG 系统一次查询要调 Embedding API、查向量数据库、跑 Rerank、再调 LLM——这些加起来的成本，和直接把文档塞进长上下文比，谁贵？”

他答不上来。

面试官最后说：“不是说 RAG 过时了，也不是说长上下文万能。关键是你作为工程师，做选型的时候有没有认真算过账——成本账、准确率账、延迟账。不要因为’大家都在用 RAG’就用 RAG。”

今天把 RAG 和长上下文的选型决策从成本到准确率到适用场景彻底拆清楚。

先算一笔成本账

大部分人说"长上下文贵"的时候，其实没算过具体数字。我们来算。

场景一：小型知识库（100 份文档，每份 10 页）

假设每页约 500 字（约 700 token），100 份 × 10 页 × 700 token =70 万 token。

长上下文方案的成本：

用 Gemini 2.5 Pro，输入 token 价格约 $1.25/百万 token（128K 以内），70 万 token 的输入成本约 $0.875/次查询。加上输出 token（假设回答 500 token，$10/百万 token），每次查询总成本约$0.88。

RAG 方案的成本：

Embedding：查询 Embedding 约 100 token，几乎免费。向量检索：Milvus 自建或 Pinecone 托管，单次查询约 $0.001。Rerank：100 个候选片段重排，约 $0.01。LLM 生成：传入 Top-5 文档（约 3500 token）+ query，输入约 4000 token，输出 500 token。用 GPT-4o 约 $0.012。总成本约$0.023/次查询。

方案	单次查询成本	1万次查询成本
长上下文（Gemini 2.5 Pro）	$0.88	$8,800
RAG（GPT-4o + Milvus）	$0.023	$230

长上下文贵了38 倍。

但等一下——这个对比不完全公平。RAG 方案有前期建设成本：向量数据库部署、Embedding 索引构建、Rerank 模型部署。如果查询量很小（比如一天只有 10 次），这些固定成本摊下来可能比长上下文还贵。

场景二：查询量极低（每天 10 次）

假设 RAG 的固定成本是每月 $50（一台小规模 Milvus 实例），那每月查询成本 = $50 + 300 × $0.023 =$56.9。

长上下文每月查询成本 = 300 × $0.88 =$264。

RAG 还是便宜。但如果查询量降到每月 30 次呢？

RAG：$50 + 30 × $0.023 =$50.7。长上下文：30 × $0.88 =$26.4。

查询量低到一定程度，长上下文反而更便宜——因为没有基础设施成本。

所以第一个结论：不是"RAG 一定便宜"，而是要看查询量。查询量大选 RAG，查询量极小选长上下文。

场景三：大型知识库（5000 份文档）

5000 份 × 10 页 × 700 token =3500 万 token。远超任何模型的上下文窗口。

这种情况没得选，只能用 RAG。或者用分层方案：先 RAG 检索出相关文档子集（比如 Top-20），再把这 20 份文档塞进长上下文里做精读。

RAG vs 长上下文：成本与文档规模决策图

再算一笔准确率账

成本只是一个维度。更关键的问题是：两种方案谁答得更准？

长上下文的"注意力稀释"问题

把 70 万 token 塞进上下文，模型能"看到"所有文档。但"看到"不等于"看懂"。

多项研究表明，当上下文长度超过一定阈值后，模型对中间位置信息的注意力会显著下降——这就是“Lost in the Middle”现象。答案如果恰好出现在上下文的中间位置（比如第 300 页的某个段落），模型找到它的概率比出现在开头或结尾低得多。

我们在训练营的项目里做过一个实验：把同一批 100 个问题分别用 RAG 和长上下文（Gemini 2.5 Pro，传入完整知识库）来回答，结果是这样的：

方案	事实提取准确率	多文档综合准确率	推理题准确率
RAG（Top-5 + GPT-4o）	89%	76%	71%
长上下文（Gemini 2.5 Pro）	82%	84%	68%
RAG + 长上下文（Top-20 精读）	91%	88%	74%

几个关键发现：

事实提取题 RAG 更强（89% vs 82%）。因为 RAG 通过检索把答案所在的文档片段放到了上下文的最前面，模型注意力集中。而长上下文方案里，答案可能在 70 万 token 的任何位置，模型需要自己"大海捞针"。

多文档综合题长上下文更强（84% vs 76%）。因为综合题需要把分散在多份文档里的信息拼在一起。RAG 只返回 Top-5，可能漏掉了某些相关文档。而长上下文方案"全看到了"，综合能力更强。

两者结合效果最好。先用 RAG 检索 Top-20 文档，再把这 20 份文档传入长上下文做精读。既保证了检索的精准性，又保留了长上下文的综合能力。

实时性问题

长上下文方案有一个 RAG 不存在的问题：每次查询都要传入完整知识库。如果知识库更新了一份文档，你需要在下次查询时传入更新后的完整知识库。这在技术上没问题，但在实际操作中意味着：你需要有一个流程来维护"最新的完整文档集"，并且每次都要传输几十万 token 的数据。

RAG 方案里，更新一份文档只需要重新生成它的 Embedding 并更新向量数据库中的对应记录，几秒钟就完成了，不影响其他文档。

延迟对比：用户愿意等多久？

长上下文方案还有一个经常被忽视的问题：首字延迟（Time to First Token, TTFT）。

传入 70 万 token，模型需要先处理完所有输入才能开始生成回答。以 Gemini 2.5 Pro 为例，70 万 token 的 TTFT 大约在8-15 秒（取决于负载）。用户问一个问题，等 10 秒才开始看到回答。

RAG 方案传入的是 Top-5 文档片段（约 3500 token），TTFT 通常在0.5-1.5 秒。加上检索耗时（约 0.2-0.5 秒），总延迟约1-2 秒。

def estimate_latency(approach: str, doc_tokens: int) -> dict: """ 延迟估算。 为什么关注 TTFT？因为用户感知的延迟主要取决于 "从提问到看到第一个字"的等待时间。 超过 3 秒用户就开始不耐烦了。 """ if approach == "long_context": # 长上下文：TTFT 随输入 token 数线性增长 ttft = 2.0 + doc_tokens / 100000 * 1.5 # 经验公式 return { "retrieval_ms": 0, "ttft_s": round(ttft, 1), "total_first_token_s": round(ttft, 1) } elif approach == "rag": # RAG：检索 + 短上下文生成 retrieval_ms = 300 # 向量检索 + Rerank llm_input_tokens = 4000 # Top-5 文档 + query ttft = 0.5 + llm_input_tokens / 100000 * 1.5 return { "retrieval_ms": retrieval_ms, "ttft_s": round(ttft, 1), "total_first_token_s": round(retrieval_ms/1000 + ttft, 1) }

方案	检索耗时	TTFT	用户感知总延迟
RAG	0.3秒	0.5秒	约 1 秒
长上下文（70万token）	0	10秒	约 10 秒
长上下文（20万token）	0	4秒	约 4 秒

在面向用户的产品里，10 秒的等待基本不可接受。这也是为什么即使技术上可以用长上下文，很多产品仍然选择 RAG 的原因之一。

RAG vs 长上下文：准确率、成本、延迟三维对比

选型决策框架：什么时候用什么

讲了这么多对比，落到实际选型上该怎么决策？我们总结了一个四步决策框架。

第一步：看文档量。超过 200 万 token（约 1500 份 10 页文档）——只能 RAG，没有选择。

第二步：看查询量。文档量在上下文窗口以内时，如果每月查询少于 50 次，长上下文可能更划算（省了基础设施成本）。超过 50 次，RAG 的边际成本优势开始体现。

第三步：看延迟要求。用户直接使用的产品，TTFT 超过 3 秒就不行——选 RAG。内部分析工具、离线报告生成——延迟不敏感，长上下文可以考虑。

第四步：看问题类型。主要是精确查找类问题（“XX 的定义是什么”）——RAG 更强。主要是综合分析类问题（“比较这三份文档的观点”）——长上下文更强。两者兼有——RAG + 长上下文组合方案。

def select_approach(doc_count: int, avg_pages: int, monthly_queries: int, max_latency_s: float, primary_question_type: str) -> str: """ 选型决策函数。实际项目中可能更复杂，但核心逻辑就这几步。 """ total_tokens = doc_count * avg_pages * 700 # 粗估 # 第一步：文档量超限 if total_tokens > 2_000_000: return "RAG（文档量超出上下文窗口）" # 第二步：查询量 if monthly_queries < 50: rag_monthly_cost = 50 + monthly_queries * 0.023 # 固定成本 + 边际成本 lc_monthly_cost = monthly_queries * (total_tokens / 1_000_000 * 1.25 + 0.005) if lc_monthly_cost < rag_monthly_cost: # 第三步：延迟 estimated_ttft = 2.0 + total_tokens / 100_000 * 1.5 if estimated_ttft <= max_latency_s: return "长上下文（查询量低 + 延迟可接受）" # 第四步：问题类型 if primary_question_type == "synthesis": return "RAG + 长上下文组合（检索 Top-20 + 精读）" return "RAG（默认推荐）"

这套 RAG vs 长上下文的选型分析框架，是我们训练营金融保险 RAG 项目里学员必须完成的第一个决策环节。学员不只是学"怎么搭 RAG"，而是先回答"该不该搭 RAG"——从文档量、查询量、延迟要求到成本测算，每个维度都有对应的计算脚本和决策依据。

RAG vs 长上下文选型决策树

2025-2026 趋势：融合是方向

最后说一下趋势。RAG 和长上下文不是非此即彼的关系，而是在走向融合。

第一种融合：RAG 做粗筛 + 长上下文做精读。先用 RAG 从 5000 份文档里检索出 Top-20 最相关的文档，然后把这 20 份文档（约 14 万 token）传入长上下文做精读。兼顾了 RAG 的检索精度和长上下文的综合能力。

第二种融合：缓存 KV Cache + RAG。把知识库文档预先编码成 KV Cache 缓存起来，查询时只需要编码 query 并做注意力计算。这样避免了每次都重新编码长文档的延迟问题，同时保持了长上下文的综合能力。Google 的 Context Caching 功能就是这个思路。

第三种融合：Agentic RAG。不再是单次检索，而是让 Agent 根据问题自主决定：先检索一轮，看结果不够再换关键词检索第二轮，或者直接用长上下文精读某份文档。这其实就是 Deep Research Agent 的思路。

面试怎么答 RAG vs 长上下文？

先说结论（30秒）：

“两者不是替代关系，是互补关系。文档量超过上下文窗口只能用 RAG；文档量小且查询少可以考虑长上下文；但最优方案往往是两者结合——RAG 粗筛 + 长上下文精读。”

再说具体权衡维度（1分钟）：

“我从三个维度做过对比。成本上，大查询量 RAG 便宜几十倍，因为每次只传 Top-5 而不是全量文档。准确率上，精确查找 RAG 更强因为检索聚焦，多文档综合长上下文更强因为信息更全。延迟上，RAG 首字延迟约 1 秒，长上下文传 70 万 token TTFT 要 10 秒以上，面向用户的产品基本不可接受。”

最后说项目实践（30秒）：

“在我们的金融保险项目里，5000 份文档，日均查询几百次，选的是 RAG。但对于需要跨文档综合的复杂问题，我们会把 RAG 检索的 Top-20 文档塞进长上下文做精读，综合准确率从 76% 提升到 88%。选型不是拍脑袋，是算过成本账、准确率账和延迟账的。”

今天这道题，只是大模型面试中 RAG 工程化的一个切面。

真正的面试官不会只问这一问。他们会顺着你的回答追下去，追到你答不上来为止——判断的就是你到底做没做过这个系统。

背答案的人和真正做过的人，说话方式完全不一样。前者说"文档多用 RAG，文档少用长上下文"，后者说"我们算过，5000 份文档约 3500 万 token，远超窗口只能 RAG；但有个客户只有 200 份文档、每月查询不到 50 次，我建议他直接用 Gemini 长上下文，省了搭 Milvus 的运维成本"。

面试官三句话就能听出来你是哪种人。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～