当前位置: 首页 > news >正文

【系统学AI】25 论文导读 ①:两篇改变 AI 的开山之作——Attention Is All You Need ReAct

本文是「AI 学习计划」系列第 27 篇,模块 07 论文导读第 1 篇。

选这两篇放一起读:Transformer 定义了"大模型怎么思考",ReAct 定义了"大模型怎么行动"。一个是引擎,一个是方向盘。


论文 A:Attention Is All You Need(2017)

基本信息

内容
标题Attention Is All You Need
作者Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin(Google Brain + Google Research)
发表NeurIPS 2017
引用130,000+(截至 2026,AI 领域史上引用最高的论文之一)
链接https://arxiv.org/abs/1706.03762

一句话总结

完全抛弃 RNN/CNN,仅用自注意力机制(Self-Attention)构建序列到序列模型,速度更快、效果更好。

这篇论文解决了什么问题?

2017 年之前,NLP 的主流架构是 RNN(LSTM/GRU):

  • 问题 1:无法并行——RNN 必须逐步处理序列,token 1 算完才能算 token 2,GPU 利用率极低
  • 问题 2:长距离遗忘——序列太长时,前面的信息到后面就"忘了"(梯度消失)
  • 问题 3:训练慢——因为无法并行,大规模训练代价极高

Transformer 的解法:用注意力机制一次性"看完"整个序列,每个 token 都能直接关注到任意远处的 token,且所有计算完全可并行。

核心架构拆解(5 个关键模块)

输入 → [Embedding + 位置编码] → [Encoder ×6] → [Decoder ×6] → 输出
1. Self-Attention(自注意力)——论文核心
Attention(Q, K, V) = softmax(QK^T / √d_k) · V
  • Q(Query):我在找什么
  • K(Key):我有什么标签
  • V(Value):我的实际内容
  • √d_k:缩放因子,防止点积过大导致 softmax 梯度消失

直觉理解:每个词对其他所有词做一次"相关性投票",投票结果决定这个词应该关注谁。

2. Multi-Head Attention(多头注意力)

不是做一次注意力,而是做h=8 次(8 个头),每个头关注不同的语义维度:

  • 头 1 可能关注语法关系
  • 头 2 可能关注语义相似度
  • 头 3 可能关注位置邻近性

最后把 8 个头的结果拼起来,过一个线性层。

3. 位置编码(Positional Encoding)

因为注意力机制本身不知道"顺序"(它是并行计算的),需要手动注入位置信息:

PE(pos, 2i) = sin(pos / 10000^(2i/d)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

为什么用三角函数?因为它能让模型学到"相对位置"(两个位置的编码差是固定模式)。

📌2026 注:现代大模型已用RoPE(旋转位置编码)替代,支持更长上下文。但理解原始设计是基础。

4. Feed-Forward Network(FFN)

每个 Attention 层后面跟一个两层 MLP:

FFN(x) = max(0, xW₁ + b₁)W₂ + b₂

有人把 FFN 比喻为"记忆库"——注意力层负责理解关系,FFN 负责存储知识。

5. 残差连接 + Layer Norm

每个子层都是:output = LayerNorm(x + SubLayer(x))

残差连接让梯度能直接流回底层(解决深层网络训练难题),LayerNorm 让训练更稳定。

为什么这篇论文改变了一切?

影响具体表现
GPT 系列只用 Decoder(自回归),GPT-1→GPT-5.5
BERT 系列只用 Encoder(双向),BERT→RoBERTa→DeBERTa
T5/GLMEncoder-Decoder 完整使用
Vision Transformer把图像切成 patch 当 token 处理
扩散模型Stable Diffusion 的 U-Net 里嵌入了 Cross-Attention

一句话总结影响:2017 年后 AI 领域几乎所有突破,都建立在 Transformer 之上。

读这篇论文的正确姿势

  1. 先看 Figure 1(架构图)——建立全局直觉
  2. 重点读 §3.2(Scaled Dot-Product Attention)——核心公式
  3. 理解 §3.2.2(Multi-Head)——为什么多个头比一个好
  4. 跳过 §5.4(训练细节)——除非你要复现
  5. 配合 Jay Alammar 的 Illustrated Transformer 一起看——可视化版

论文 B:ReAct — Synergizing Reasoning and Acting in Language Models(2022)

基本信息

内容
标题ReAct: Synergizing Reasoning and Acting in Language Models
作者Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao(Princeton + Google Brain)
发表ICLR 2023 (Spotlight)
引用4,000+(Agent 领域引用最高的论文之一)
链接https://arxiv.org/abs/2210.03629

一句话总结

让 LLM 在生成"推理过程"(Thought)的同时生成"行动"(Action),形成 Thought→Action→Observation 循环,显著提升复杂任务完成能力。

解决了什么问题?

2022 年之前,LLM 有两个流派:

  • Chain-of-Thought(CoT):让模型"一步步想",但只能推理,不能行动(不能搜索、不能计算)
  • Action-only:让模型直接调工具,但没有推理过程,经常做蠢事

ReAct 把两者合并:先想为什么要做(Thought),再做(Action),看到结果(Observation),再想下一步

核心范式:Thought-Action-Observation 循环

用户问题: "Apple Remote 能控制哪些程序,这些程序的原开发者是谁?" Thought 1: 我需要先搜索 Apple Remote 能控制什么程序。 Action 1: Search["Apple Remote"] Observation 1: Apple Remote 可以控制 Front Row 和 iTunes... Thought 2: 我知道 Apple Remote 能控制 Front Row,我需要查 Front Row 的开发者。 Action 2: Search["Front Row software"] Observation 2: Front Row 是 Apple 开发的... Thought 3: 现在我还需要查 iTunes 的原开发者。 Action 3: Search["iTunes original developer"] Observation 3: iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发... Thought 4: 我现在有了所有信息。 Action 4: Finish["Front Row 和 iTunes。Front Row 由 Apple 开发,iTunes 最初由 Jeff Robbin 和 Bill Kincaid 开发。"]

关键实验结果

任务CoT-onlyAct-onlyReAct
HotpotQA(多跳问答)29.4%25.7%34.2%
FEVER(事实验证)56.3%58.2%64.1%
ALFWorld(交互游戏)45%71%
WebShop(网页购物)62.4%66.6%

为什么 ReAct 这么重要?

  1. 定义了 Agent 的基本范式:所有后续 Agent 框架(LangChain、AutoGPT、Claude)都是 ReAct 的变体
  2. 证明了"边想边做"比"只想不做"或"只做不想"都好
  3. 可观察性极强:Thought 让人能看懂 Agent 为什么这么做,便于调试
  4. 通用性极强:问答、推理、交互环境、网页操作都能用

ReAct 的局限性(2026 视角)

局限后续解法
单步推理,缺乏全局规划Plan-then-Execute 范式
无法自我纠错Reflexion(自我反思 Agent)
工具调用粒度粗Anthropic Computer Use / MCP
上下文越来越长Extended Thinking / Claude Opus 4.7 100K thinking

读这篇论文的正确姿势

  1. 先看 Figure 1(ReAct vs CoT vs Act 对比图)——30 秒建立直觉
  2. 重点读 §3(ReAct 格式定义)——理解 Thought/Action/Observation 的形式化
  3. 仔细看 §4.1 的例子(HotpotQA)——最直觉的演示
  4. Table 1-3 的实验结果——量化证据
  5. §5.2 错误分析——理解 ReAct 在哪里会失败

两篇论文的关系

Transformer(2017) ReAct(2022) ↓ ↓ 定义了"LLM 怎么思考" 定义了"LLM 怎么行动" ↓ ↓ GPT/Claude/DeepSeek... LangChain/AutoGPT/Manus... ↓ ↓ ←←← 合在一起 →→→ ↓ 2024-2026: Agent 时代爆发 Claude Computer Use / Agentforce / Devin

如果你只读两篇 AI 论文:Transformer 让你理解"引擎",ReAct 让你理解"方向盘"。引擎+方向盘 = 能跑的 Agent。


📚 延伸阅读

  • Illustrated Transformer(Jay Alammar) — 最佳可视化入门
  • 3Blue1Brown: Attention in Transformers — 数学直觉
  • Reflexion: Language Agents with Verbal Reinforcement Learning — ReAct 的自我纠错升级版
  • Anthropic: Building Effective Agents — ReAct 思想在工业界的最终形态

路易乔布斯 © 2026| 「AI 学习计划」系列第 27 篇 | 模块 07 论文导读 1/3

http://www.cnnetsun.cn/news/2718005.html

相关文章:

  • 3分钟学会使用vscode-plantuml:让UML图表设计变得如此简单
  • 告别环境配置烦恼:用PHPStudy+VSCode搭建PHP调试环境(含XDebug避坑指南)
  • ESP32步进电机无线控制:从硬件连接到Web服务器全解析
  • 海尔智能家居设备无缝接入HomeAssistant:终极完整指南
  • 集成学习投票实战:用RandomForest、XGBoost等6个模型,在合成数据集上验证软投票为何总比硬投票强?
  • 保姆级避坑指南:在Linux服务器上用MobaXterm搞定CCPD车牌数据集到YOLOv5的完整转换流程
  • LabelImg图像标注工具:三分钟快速上手终极指南
  • Obsidian插件翻译革命:3步让英文插件秒变中文
  • Perseus:碧蓝航线脚本补丁如何实现无偏移量游戏修改?
  • 告别下载后不运行:STM32CubeIDE搭配DAP-Link的完整配置与复位难题解决
  • Ultimate Vocal Remover完整指南:AI音频分离工具快速上手教程
  • 文档搜索响应时间缩短94%的秘密:RAG+元数据图谱+权限感知引擎三合一实战部署
  • 智能家居 Zigbee 协议在高并发传感数据时的丢包率实测
  • AI驱动的数据仓库升级路径(2024企业级落地白皮书)
  • RAG 闭环:基于 DeepEval 的测试结果,反向优化切词策略与 Prompt
  • Giskard 框架初探:另一款值得关注的开源 AI 质量保障平台
  • 115网盘在Kodi中实现原码播放的终极解决方案
  • Mistral AI 峰会:从模型公司到全栈 AI 供应商,欧洲 AI 打出差异化牌!
  • 连接器工厂主要分布在哪几个产区?天下工厂产业研究院梳理全国版图
  • MATLAB R2019b实现的三相并网逆变器PI闭环控制仿真(含SVPWM驱动与参数可调)
  • 打破音乐枷锁:3分钟掌握开源音频解密核心技术
  • 终极免费MP4视频修复指南:用Untrunc拯救你的珍贵回忆
  • 基于ESP32与OV2640的嵌入式相机DIY全流程实战指南
  • 千问 LeetCode 2949. 统计美丽子字符串 II Go实现
  • 千问 LeetCode 2953. 统计完全子字符串 Java实现
  • Havenlon 的共同治理哲学:Owner 不应该天然拥有最终执行权
  • 从质检到金融风控:假设检验的7个真实业务场景拆解(含Python/R代码片段)
  • 如何快速掌握通达信金融数据:mootdx新手的完整入门指南
  • 紧急升级通知:Lindy v2.8.3已修复3个高危资源漂移漏洞——你的自动化流水线是否仍在裸奔?
  • 腾讯云杀疯了:大模型降价 97.5%,小玩家正在出局