【系统学AI】25 论文导读 ①:两篇改变 AI 的开山之作——Attention Is All You Need ReAct
本文是「AI 学习计划」系列第 27 篇,模块 07 论文导读第 1 篇。
选这两篇放一起读:Transformer 定义了"大模型怎么思考",ReAct 定义了"大模型怎么行动"。一个是引擎,一个是方向盘。
论文 A:Attention Is All You Need(2017)
基本信息
| 项 | 内容 |
|---|---|
| 标题 | Attention Is All You Need |
| 作者 | Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin(Google Brain + Google Research) |
| 发表 | NeurIPS 2017 |
| 引用 | 130,000+(截至 2026,AI 领域史上引用最高的论文之一) |
| 链接 | https://arxiv.org/abs/1706.03762 |
一句话总结
完全抛弃 RNN/CNN,仅用自注意力机制(Self-Attention)构建序列到序列模型,速度更快、效果更好。
这篇论文解决了什么问题?
2017 年之前,NLP 的主流架构是 RNN(LSTM/GRU):
- 问题 1:无法并行——RNN 必须逐步处理序列,token 1 算完才能算 token 2,GPU 利用率极低
- 问题 2:长距离遗忘——序列太长时,前面的信息到后面就"忘了"(梯度消失)
- 问题 3:训练慢——因为无法并行,大规模训练代价极高
Transformer 的解法:用注意力机制一次性"看完"整个序列,每个 token 都能直接关注到任意远处的 token,且所有计算完全可并行。
核心架构拆解(5 个关键模块)
输入 → [Embedding + 位置编码] → [Encoder ×6] → [Decoder ×6] → 输出1. Self-Attention(自注意力)——论文核心
Attention(Q, K, V) = softmax(QK^T / √d_k) · V- Q(Query):我在找什么
- K(Key):我有什么标签
- V(Value):我的实际内容
- √d_k:缩放因子,防止点积过大导致 softmax 梯度消失
直觉理解:每个词对其他所有词做一次"相关性投票",投票结果决定这个词应该关注谁。
2. Multi-Head Attention(多头注意力)
不是做一次注意力,而是做h=8 次(8 个头),每个头关注不同的语义维度:
- 头 1 可能关注语法关系
- 头 2 可能关注语义相似度
- 头 3 可能关注位置邻近性
最后把 8 个头的结果拼起来,过一个线性层。
3. 位置编码(Positional Encoding)
因为注意力机制本身不知道"顺序"(它是并行计算的),需要手动注入位置信息:
PE(pos, 2i) = sin(pos / 10000^(2i/d)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d))为什么用三角函数?因为它能让模型学到"相对位置"(两个位置的编码差是固定模式)。
📌2026 注:现代大模型已用RoPE(旋转位置编码)替代,支持更长上下文。但理解原始设计是基础。
4. Feed-Forward Network(FFN)
每个 Attention 层后面跟一个两层 MLP:
FFN(x) = max(0, xW₁ + b₁)W₂ + b₂有人把 FFN 比喻为"记忆库"——注意力层负责理解关系,FFN 负责存储知识。
5. 残差连接 + Layer Norm
每个子层都是:output = LayerNorm(x + SubLayer(x))
残差连接让梯度能直接流回底层(解决深层网络训练难题),LayerNorm 让训练更稳定。
为什么这篇论文改变了一切?
| 影响 | 具体表现 |
|---|---|
| GPT 系列 | 只用 Decoder(自回归),GPT-1→GPT-5.5 |
| BERT 系列 | 只用 Encoder(双向),BERT→RoBERTa→DeBERTa |
| T5/GLM | Encoder-Decoder 完整使用 |
| Vision Transformer | 把图像切成 patch 当 token 处理 |
| 扩散模型 | Stable Diffusion 的 U-Net 里嵌入了 Cross-Attention |
一句话总结影响:2017 年后 AI 领域几乎所有突破,都建立在 Transformer 之上。
读这篇论文的正确姿势
- 先看 Figure 1(架构图)——建立全局直觉
- 重点读 §3.2(Scaled Dot-Product Attention)——核心公式
- 理解 §3.2.2(Multi-Head)——为什么多个头比一个好
- 跳过 §5.4(训练细节)——除非你要复现
- 配合 Jay Alammar 的 Illustrated Transformer 一起看——可视化版
论文 B:ReAct — Synergizing Reasoning and Acting in Language Models(2022)
基本信息
| 项 | 内容 |
|---|---|
| 标题 | ReAct: Synergizing Reasoning and Acting in Language Models |
| 作者 | Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao(Princeton + Google Brain) |
| 发表 | ICLR 2023 (Spotlight) |
| 引用 | 4,000+(Agent 领域引用最高的论文之一) |
| 链接 | https://arxiv.org/abs/2210.03629 |
一句话总结
让 LLM 在生成"推理过程"(Thought)的同时生成"行动"(Action),形成 Thought→Action→Observation 循环,显著提升复杂任务完成能力。
解决了什么问题?
2022 年之前,LLM 有两个流派:
- Chain-of-Thought(CoT):让模型"一步步想",但只能推理,不能行动(不能搜索、不能计算)
- Action-only:让模型直接调工具,但没有推理过程,经常做蠢事
ReAct 把两者合并:先想为什么要做(Thought),再做(Action),看到结果(Observation),再想下一步。
核心范式:Thought-Action-Observation 循环
用户问题: "Apple Remote 能控制哪些程序,这些程序的原开发者是谁?" Thought 1: 我需要先搜索 Apple Remote 能控制什么程序。 Action 1: Search["Apple Remote"] Observation 1: Apple Remote 可以控制 Front Row 和 iTunes... Thought 2: 我知道 Apple Remote 能控制 Front Row,我需要查 Front Row 的开发者。 Action 2: Search["Front Row software"] Observation 2: Front Row 是 Apple 开发的... Thought 3: 现在我还需要查 iTunes 的原开发者。 Action 3: Search["iTunes original developer"] Observation 3: iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发... Thought 4: 我现在有了所有信息。 Action 4: Finish["Front Row 和 iTunes。Front Row 由 Apple 开发,iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发。"]关键实验结果
| 任务 | CoT-only | Act-only | ReAct |
|---|---|---|---|
| HotpotQA(多跳问答) | 29.4% | 25.7% | 34.2% |
| FEVER(事实验证) | 56.3% | 58.2% | 64.1% |
| ALFWorld(交互游戏) | — | 45% | 71% |
| WebShop(网页购物) | — | 62.4% | 66.6% |
为什么 ReAct 这么重要?
- 定义了 Agent 的基本范式:所有后续 Agent 框架(LangChain、AutoGPT、Claude)都是 ReAct 的变体
- 证明了"边想边做"比"只想不做"或"只做不想"都好
- 可观察性极强:Thought 让人能看懂 Agent 为什么这么做,便于调试
- 通用性极强:问答、推理、交互环境、网页操作都能用
ReAct 的局限性(2026 视角)
| 局限 | 后续解法 |
|---|---|
| 单步推理,缺乏全局规划 | Plan-then-Execute 范式 |
| 无法自我纠错 | Reflexion(自我反思 Agent) |
| 工具调用粒度粗 | Anthropic Computer Use / MCP |
| 上下文越来越长 | Extended Thinking / Claude Opus 4.7 100K thinking |
读这篇论文的正确姿势
- 先看 Figure 1(ReAct vs CoT vs Act 对比图)——30 秒建立直觉
- 重点读 §3(ReAct 格式定义)——理解 Thought/Action/Observation 的形式化
- 仔细看 §4.1 的例子(HotpotQA)——最直觉的演示
- Table 1-3 的实验结果——量化证据
- §5.2 错误分析——理解 ReAct 在哪里会失败
两篇论文的关系
Transformer(2017) ReAct(2022) ↓ ↓ 定义了"LLM 怎么思考" 定义了"LLM 怎么行动" ↓ ↓ GPT/Claude/DeepSeek... LangChain/AutoGPT/Manus... ↓ ↓ ←←← 合在一起 →→→ ↓ 2024-2026: Agent 时代爆发 Claude Computer Use / Agentforce / Devin如果你只读两篇 AI 论文:Transformer 让你理解"引擎",ReAct 让你理解"方向盘"。引擎+方向盘 = 能跑的 Agent。
📚 延伸阅读
- Illustrated Transformer(Jay Alammar) — 最佳可视化入门
- 3Blue1Brown: Attention in Transformers — 数学直觉
- Reflexion: Language Agents with Verbal Reinforcement Learning — ReAct 的自我纠错升级版
- Anthropic: Building Effective Agents — ReAct 思想在工业界的最终形态
路易乔布斯 © 2026| 「AI 学习计划」系列第 27 篇 | 模块 07 论文导读 1/3
