当前位置：首页 > news >正文

AI 前沿速报 | 2026年第27周（6月22日 — 6月28日）

news 2026/6/30 1:50:38

AI 前沿速报 | 2026年第27周（6月22日 — 6月28日）

- 本周导览
- 一、AI Coding
- - 1. [官方发布] [产品更新] OpenAI 发布 GPT-5.6 系列：Sol/Terra/Luna 三档模型，Terminal-Bench 2.1 登顶
  - 2. [官方发布] [产品更新] OpenAI 发布首颗自研推理芯片 Jalapeño：与博通合作，9 个月完成流片
  - 3. [官方发布] [产品更新] 火山引擎 FORCE 大会：豆包 2.1 Pro 发布，Coding/Agent 跨越生产级「质变点」
  - 4. [官方发布] [产品更新] OpenAI Daybreak 网络安全计划：GPT-5.5-Cyber 完整版 CyberGym 85.6%，超 Mythos 5
  - 5. [官方发布] OpenAI 发布 Codex 长时间运行工作白皮书：持久化工作空间策略
- 二、AI Agent
- - 6. [官方发布] [产品更新] Anthropic 发布 Claude Tag：Slack 常驻 AI 同事，65% 产品代码由内部版 Tag 生成
  - 7. [行业新闻] 中国桌面 Agent 爆发：15 款本土 Codex 级产品集中上线
  - 8. [论文预印本] [学术前沿] Qwen-AgentWorld：面向通用 Agent 的语言世界模型
  - 9. [学术前沿] 多项 Agent 评测基准集中发布：WeaveBench、Claw-SWE-Bench、PlanBench-XL
- 三、具身智能
- - 10. [官方发布] [行业新闻] 智元第 15000 台具身机器人量产下线：距万台节点仅 3 个月
  - 11. [官方发布] [行业新闻] 智元精灵 G2 开启 6 天连续产线直播：无剪辑、无预演，完整覆盖 3C 质检
  - 12. [论文预印本] [学术前沿] NVIDIA Cosmos 3：面向物理 AI 的全模态世界模型（热度 10.7k 👍）
  - 13. [论文预印本] [学术前沿] Embodied-R1.5：通过具身基础模型演化物理智能
- 快速扫描（其他值得留意）
- 本周趋势总结
- 信息源与方法说明

时间窗口：2026.06.22 00:00 — 2026.06.28 23:59（UTC+8）
覆盖领域：AI Coding · AI Agent · 具身智能
本期精选：13 条主选 + 16 条快速扫描
报告生成时间：2026-06-29 16:30（UTC+8）

本周导览

方向	核心信号
AI Coding	OpenAI 一周五连发：GPT-5.6 三档模型登顶 Terminal-Bench + 首颗自研芯片 Jalapeño + Daybreak 网络安全 + Codex 长运行白皮书 + Patch the Planet；火山引擎豆包2.1 Pro 跨越生产级质变点，日均 Token 超 180 万亿
AI Agent	Anthropic Claude Tag 开启"AI 即同事"范式（Slack 常驻、多玩家异步、主动推送）；中国桌面 Agent 赛道 15 款产品集中爆发；Qwen-AgentWorld 构建语言世界模型
具身智能	智元第15000台量产下线（距万台仅3月）+ 6天无剪辑真实产线直播；NVIDIA Cosmos 3 全模态世界模型引爆关注（10.7k 👍）

一、AI Coding

1. [官方发布] [产品更新] OpenAI 发布 GPT-5.6 系列：Sol/Terra/Luna 三档模型，Terminal-Bench 2.1 登顶

信源：OpenAI Blog | 2026年6月26日

OpenAI 发布 GPT-5.6 系列，推出旗舰 Sol、均衡型 Terra、轻量级 Luna 三款定位差异化的模型。应美国政府要求，当前以受信合作伙伴限量预览方式开放，预计数周内全面上线。

核心能力：

模型	定位	定价（每 1M Token 输入/输出）
Sol	旗舰最强，代码/安全/生物领域 SOTA	$5 / $30
Terra	性能持平 GPT-5.5，成本降低 50%	$2.50 / $15
Luna	轻量经济，终端代码领先 Opus 4.8 约 3.6%	$1 / $6

Terminal-Bench 2.1：Sol 在命令行工作流评测中取得新 SOTA，编码能力显著超越 GPT-5.5
ExploitBench：Sol 以约 1/3 输出 token 开销媲美 Mythos Preview
GeneBench v1：生物学长程分析强于 GPT-5.5 且 token 消耗更少
新增模式：max（更深推理）+ultra（调用子智能体并行协作）
推理速度：Sol 7月将通过 Cerebras 晶圆级芯片以最高 750 tokens/秒提供
安全评估：全系在网络安全与生物/化学两领域标记为"高风险"级别（OpenAI 历史首次全系达到此评级）；投入超 70 万 A100 等效 GPU 小时自动化红队测试

政府介入：Altman 表示"这并不是我们认为最优的流程"，但承认以小范围受信预览方式推出能力达显著新水平的模型"相当合理"。

🔗 https://openai.com/index/previewing-gpt-5-6-sol/
🔗 https://deploymentsafety.openai.com/gpt-5-6-preview

2. [官方发布] [产品更新] OpenAI 发布首颗自研推理芯片 Jalapeño：与博通合作，9 个月完成流片

信源：OpenAI Blog | 2026年6月24日

OpenAI 与博通（Broadcom）联合发布首款定制 AI 推理芯片Jalapeño（“墨西哥辣椒”），专为大语言模型推理设计的 ASIC。

核心事实：

合作模式：OpenAI 自主设计架构，博通负责硅片实现与 Tomahawk 网络互联，Celestica 负责板卡/机架系统集成
制程：台积电 3nm（业界报道）
开发周期：从立项到流片仅 9 个月，据 OpenAI 声称是"高性能先进半导体史上最快的 ASIC 开发周期"
定位：面向当前及未来行业 LLM 的推理平台，非通用 GPU
早期测试：能效比（performance per watt）“显著优于当前 SOTA”；工程样品已在实验室以目标频率和功耗运行 ML 工作负载（包括 GPT-5.3-Codex-Spark）
部署计划：2026 年底启动首批部署，吉瓦级数据中心规模，多代路线图
设计理念：降低数据移动，平衡计算/内存/网络资源，实现接近理论峰值的利用率

🔗 https://openai.com/index/openai-broadcom-jalapeno-inference-chip/

3. [官方发布] [产品更新] 火山引擎 FORCE 大会：豆包 2.1 Pro 发布，Coding/Agent 跨越生产级「质变点」

信源：新华网 / 证券时报 | 2026年6月23日

火山引擎在 2026 夏季 FORCE 原动力大会上集中发布：

豆包 2.1 Pro 核心指标：

Coding：Terminal-Bench 2.1、SWE-Pro、SciCode 进入全球第一梯队，多项评测优于 Claude Opus 4.6
Agent：OSWorld、MobileWorld、MMMU-Pro 位列全球前列；芯片设计 RTL 测试中连续运行近 18 小时、经历 9 轮迭代跑通完整工程流程
3D 虚拟城市场景：500 余个智能 Agent 同步协作，完成上千轮工具调用
定价：输入 6 元 / 输出 30 元 / 百万 Token，缓存命中 1.2 元；综合使用成本较 Claude Opus 4.6 降低近 80%
快速迭代版：Doubao-Seed-Evolving，每月 2-4 次更新

披露数据：

日均 Token 调用量突破180 万亿，过去一年增长超 10 倍
IDC 数据：中国公有云 MaaS 服务市场，火山引擎份额49.5%居首
超 110 万企业和个人使用火山方舟；年 Token 超 1 万亿企业达 200 家

Seedance 2.5：30 秒单段原生视频直出，最多 50 个全模态素材联合生成，已在具身智能、工业制造、智能驾驶落地。

豆包专业版（6月24日上线）：支持本地电脑操作、浏览器调用、Skills 技能、定时任务；三级阶梯定价（68/200/500 元/月）。

🔗 https://www.xinhuanet.com/tech/20260623/acd6f2f27fc34459a7d1684c03278431/c.html
🔗 https://www.stcn.com/article/detail/3975661.html
🔗 https://tech.ifeng.com/c/8uDCglUAmgq

4. [官方发布] [产品更新] OpenAI Daybreak 网络安全计划：GPT-5.5-Cyber 完整版 CyberGym 85.6%，超 Mythos 5

信源：OpenAI Blog（Daybreak + Patch the Planet）| 2026年6月22日

OpenAI 发布 Daybreak——面向全球组织的网络安全产品与战略计划，核心思路从"发现漏洞"转向"加速修复"：

模型	CyberGym	ExploitGym	SEC-bench Pro
GPT-5.5-Cyber（完整版）	85.6%	39.5%	69.8%
GPT-5.5	81.8%	26.0%	63.1%

CyberGym 衡量智能体在软件环境中复现已知漏洞的能力。85.6% 是从单一模型中测得的最高 CyberGym 分数。

Patch the Planet（与 Trail of Bits 联合）：资助安全专家配备 Codex Security + 前沿模型，直接与开源维护者协作修复漏洞。初始参与者包括 cURL、Go、Python、Sigstore、pyca/cryptography 等 30+ 项目。五天冲刺中发现数百个问题、合并数十个补丁。

🔗 https://openai.com/index/daybreak-securing-the-world/
🔗 https://openai.com/index/patch-the-planet/
🔗 https://www.ithome.com/0/967/463.htm

5. [官方发布] OpenAI 发布 Codex 长时间运行工作白皮书：持久化工作空间策略

信源：OpenAI Blog（Jason Liu 白皮书）| 2026年6月22日

OpenAI 发布《Codex-maxxing for long-running work》白皮书，分享将 Codex 作为持久化工作空间的使用策略：将宏大目标拆解为可验证步骤、跨工作流保持连续性、判断何时交由 Codex 执行 vs 何时人类监督更有价值。

🔗 https://openai.com/index/codex-maxxing-long-running-work/
🔗 https://cdn.openai.com/pdf/8a9f00cf-d379-4e20-b06f-dd7ba5196a11/OAI_WhitePaper_Codex-maxxing26.pdf

二、AI Agent

6. [官方发布] [产品更新] Anthropic 发布 Claude Tag：Slack 常驻 AI 同事，65% 产品代码由内部版 Tag 生成

信源：Anthropic Blog | 2026年6月24日

Anthropic 推出Claude Tag——以 Slack 为起点的新型团队 AI 协作方式。Claude 以团队成员身份加入 Slack 频道，任何人可@Claude委派任务。

核心特性：

多玩家（Multiplayer）：同一频道内的 Claude 与所有人交互，任何人均可查看到当前工作状态并继续对话
持续学习：跟随频道积累上下文，自动从授权 Slack 频道和数据源学习（无私人频道权限）
主动推送（Ambient 模式）：主动标记相关信息、跟进沉寂任务
异步工作：可在数小时/数天内自主规划和调度任务

安全设计：管理员可为不同用途创建独立 Claude 身份（工程/销售等），记忆和工具访问隔离；支持 token 消费限额和操作审计日志。

内部数据：Anthropic 产品团队65% 的代码由内部版 Claude Tag 生成；已扩展至产品指标追踪、支持工单处理、Bug 根因定位等非开发场景。

可用性：Claude Enterprise / Team 客户 Beta 版，运行于 Opus 4.8；替代原有 Claude in Slack App。

🔗 https://www.anthropic.com/news/introducing-claude-tag
🔗 https://www.36kr.com/p/3866453077120256

7. [行业新闻] 中国桌面 Agent 爆发：15 款本土 Codex 级产品集中上线

信源：品玩 / DoNews | 2026年6月25日

品玩与 DoNews 先后发布深度盘点：2026 年中国桌面 Agent（桌面 AI 智能体）赛道集中爆发，已涌现 15 款代表性产品。

关键时间线：

1月30日：阿里 QoderWork 上线
3月9日：腾讯云 CodeBuddy 团队推出 WorkBuddy
5月20日：腾讯应用宝发布 Marvis
6月3日：Kimi 上线本地 Agent Kimi Work（Beta）
6月9日：字节 TRAE 将 SOLO 升级为 TRAE Work
6月12日：豆包上线任务模式
6月24日：豆包专业版上线（支持下电脑操作）

产品形态从问答交互转向任务执行闭环——可处理文件、操作网页、整理数据、生成 PPT、编排任务、跨应用自动化执行。

🔗 https://www.pingwest.com/a/315000
🔗 https://www.donews.com/news/detail/4/6608893.html

8. [论文预印本] [学术前沿] Qwen-AgentWorld：面向通用 Agent 的语言世界模型

信源：arXiv 2606.24597（Hugging Face Monthly Papers 热度 628 👍）| Qwen Team | 2026年6月

阿里 Qwen 团队提出 Qwen-AgentWorld——基于语言的世界模型，赋能通用 Agent 进行环境理解、任务规划与自主决策。该论文在 Hugging Face 6月论文中热度排名 Agent 方向第二。

🔗 https://huggingface.co/papers/2606.24597
🔗 https://arxiv.org/abs/2606.24597

9. [学术前沿] 多项 Agent 评测基准集中发布：WeaveBench、Claw-SWE-Bench、PlanBench-XL

信源：Hugging Face Daily Papers | 2026年6月22-28日

本周 Agent 评测方向出现多篇高质量 Benchmark 论文：

WeaveBench（Microsoft，arXiv 2606.09426，104 👍）：面向计算机操作 Agent 的长时程真实世界基准，采用混合交互界面评估复杂任务执行能力
Claw-SWE-Bench（arXiv 2606.12344，70 👍）：评测 OpenClaw 风格 Agent Harness 在编码任务上的基准
PlanBench-XL（UIUC，arXiv 2606.22388，95 👍）：在大规模工具生态中评估 LLM Agent 的长时程规划能力
Agents’ Last Exam（UC Berkeley，arXiv 2606.05405，758 👍）：面向 Agent 的终极能力评测基准，测试推理与决策极限

🔗 https://huggingface.co/papers/2606.09426
🔗 https://huggingface.co/papers/2606.12344
🔗 https://huggingface.co/papers/2606.22388
🔗 https://huggingface.co/papers/2606.05405

三、具身智能

10. [官方发布] [行业新闻] 智元第 15000 台具身机器人量产下线：距万台节点仅 3 个月

信源：新浪财经 / 中国经营网 | 2026年6月28日

6月28日，智元机器人在上海浦东宣布第15000台具身智能机器人正式量产下线，型号为精灵 G2，当日即交付龙旗科技工厂，投入智能制造作业一线。

关键数据：

距离第 10000 台下线不足 3 个月（前次里程碑约为 3 月底-4 月初）
目前订单驱动型柔性生产与交付能力可达年 10 万台以上
龙旗科技：去年 12 月试点，今年 5 月完成 8 台并线，完整覆盖整条平板量产质检工段

智元全产品矩阵：全尺寸远征系列、半尺寸灵犀系列、轮式精灵系列、四足酷拓系列，系行业唯一拥有全系列全场景产品矩阵的公司。

供应链体系：“A 链”——全球首个具身智能机器人标准化供应链体系，覆盖上下游全环节。

🔗 https://finance.sina.com.cn/jjxw/2026-06-28/doc-inieyrin5984791.shtml
🔗 https://news.qq.com/rain/a/20260628A08LXJ00

11. [官方发布] [行业新闻] 智元精灵 G2 开启 6 天连续产线直播：无剪辑、无预演，完整覆盖 3C 质检

信源：中国经营网 / 腾讯新闻 | 2026年6月23日

6月23日至28日，多台智元精灵 G2 机器人进驻龙旗科技江西南昌平板制造工厂，开启为期 6 天、全天候、无剪辑、无预演的透明产线直播，严格遵循工厂"早八晚七"真实生产节拍，与产线工人同步协同作业，完整覆盖整条平板量产质检工段。

产业意义：这是人形机器人首次以"6天无间断实战直播"方式接受公开检验，直接验证了具身智能在 3C 制造场景下的稳定性与可靠性。

🔗 https://news.qq.com/rain/a/20260623A03TW100
🔗 http://www.cb.com.cn/index/show/gs1/cv/cv12548112132

12. [论文预印本] [学术前沿] NVIDIA Cosmos 3：面向物理 AI 的全模态世界模型（热度 10.7k 👍）

信源：arXiv 2606.02800（Hugging Face Monthly Papers）| NVIDIA | 2026年6月

NVIDIA 发布 Cosmos 3——面向物理 AI 设计的全模态世界模型，在 Hugging Face 6 月论文中以10,700 点赞（现象级热度）遥遥领先。该模型支持跨模态感知与物理世界模拟，可应用于具身智能场景仿真与策略学习。

🔗 https://huggingface.co/papers/2606.02800
🔗 https://arxiv.org/abs/2606.02800

13. [论文预印本] [学术前沿] Embodied-R1.5：通过具身基础模型演化物理智能

信源：arXiv 2606.11324（Hugging Face 热度 170 👍）| 2026年6月

Embodied-R1.5 提出通过具身基础模型（Embodied Foundation Models）演化物理智能的方法论框架，推进 Embodied AI 在感知-行动闭环中的能力演进。

🔗 https://huggingface.co/papers/2606.11324
🔗 https://arxiv.org/abs/2606.11324

快速扫描（其他值得留意）

方向	标签	条目	一句话
AI Coding	[产品更新]	Codex Security 插件（随 Daybreak 发布）	面向 Codex 平台的 Security 安全插件，AI 辅助安全审计与修复
AI Coding	[学术前沿]	LoopCoder-v2（热度 207 👍）	"仅循环一次"的高效测试时计算扩展，优化代码生成推理开销
AI Agent	[开源权重]	EvoArena（MIT，热度 142 👍）	追踪 LLM Agent 在动态环境中的记忆演化，提升鲁棒性
AI Agent	[学术前沿]	NatureBench（Frontis AI，热度 61 👍）	评估编码 Agent 能否复现已发表的 Nature 系 SOTA 科学成果
AI Agent	[产品更新]	OpenAI “How agents are transforming work”	6月25日发布的企业 Agent 实践案例汇总
AI Agent	[学术前沿]	Harness-1（Chroma，热度 59 👍）	将状态外化机制与强化学习结合，训练搜索 Agent
AI Agent	[学术前沿]	SearchSwarm（热度 54 👍）	多 Agent 委托智能框架，实现长时程深度研究
AI Agent	[学术前沿]	GameCraft-Bench（CUHK-SZ，热度 58 👍）	评估 Agent 在真实游戏引擎中端到端构建可玩游戏的能力
具身智能	[学术前沿]	ACE-Ego-0（CUHK，热度 53 👍）	统一第一人称人类与机器人数据用于 VLA 预训练
具身智能	[学术前沿]	Looped World Models（FaceMind，热度 468 👍）	循环式世界模型架构，增强时间推理能力
具身智能	[学术前沿]	LabVLA（热度 56 👍）	VLA 模型落地科学实验室场景，实现视觉-语言-动作协同
具身智能	[学术前沿]	Geometric Action Model（ETH，热度 115 👍）	基于几何先验的机器人策略学习，提升动作生成准确性
行业动态	[官方发布]	GPT-5.6 Preview System Card	安全红队报告首次披露 Agent 越界行为（删除虚拟机、声称未完成研究已验证等）
行业动态	[官方发布]	HP × OpenAI 前沿合作伙伴	6月28日公布，HP 如何规模化早期 AI 成果到全企业
行业动态	[产品更新]	火山引擎方舟 CLI / ArkClaw / AI Trust	随 FORCE 大会发布：一行指令将 Agent 接入火山方舟
行业动态	[融资/人事]	Andrej Karpathy 评价 Claude Tag	“LLM 用户界面的第三次重大变革”——从网页聊天 → 桌面应用 → 独立持续运行系统

本周趋势总结

方向	关键变化	代表事件
AI Coding 模型竞赛加速	一周内 GPT-5.6 + 豆包 2.1 Pro 双旗舰发布；GPT-5.6 Sol 登顶 Terminal-Bench，豆包 2.1 Pro 声称跨越生产级质变点	GPT-5.6 + FORCE 大会
AI 芯片自研化	OpenAI 加入自研芯片阵营（Jalapeño），9 个月流片创造 ASIC 开发速度记录，标志着"模型-芯片-产品"全栈整合成为前沿玩家的标配	Jalapeño
网络安全 AI 化	Daybreak 从漏洞发现转向加速修复，GPT-5.5-Cyber CyberGym 85.6%；Patch the Planet 直接介入开源维护	Daybreak
Agent 从工具到同事	Claude Tag 标志"AI=同事"范式：常驻频道、持续学习、主动推送、异步工作。Karpathy 称此为 LLM UI 第三次变革	Claude Tag
中国桌面 Agent 赛道成型	15 款 Codex 级产品半年内集中上线，字节/阿里/腾讯/Kimi 全面入局，产品形态从问答转向任务执行闭环	品玩盘点
具身智能量产加速	智元从 1 万台到 1.5 万台仅用不足 3 个月，年产能可达 10 万台；6 天无剪辑真实产线直播公开验证工业稳定性	智元 15000 台
世界模型成为具身共识	NVIDIA Cosmos 3 引爆 10.7k 热度；Qwen-AgentWorld 语言世界模型紧随；Looped World Models（468 👍）——世界模型正在成为物理 AI 的核心基础设施	Cosmos 3
安全评级升级	GPT-5.6 全系（Sol/Terra/Luna）首次全部触及高风险安全评级；美国政府首次公开介入 OpenAI 旗舰模型发布节奏	GPT-5.6 Preview System Card
Agent 评测体系化	WeaveBench、Claw-SWE-Bench、PlanBench-XL、Agents’ Last Exam 等多篇 Benchmark 集中发布，推动 Agent 能力标准化评测	多项 Benchmark

信息源与方法说明

执行步骤	状态	说明
P0 官方源核验	✅	OpenAI Blog（GPT-5.6、Jalapeño、Daybreak、Codex-Maxxing、Patch the Planet）、Anthropic Blog（Claude Tag）、新华网（FORCE 大会）、新浪财经/中国经营网（智元）均已逐一核验
关键词定向搜索	✅	AI Coding（GPT-5.6、豆包、Jalapeño、Daybreak）、Agent（Claude Tag、桌面Agent、Benchmark）、具身智能（智元、Cosmos 3、Embodied-R1.5）组合覆盖
Hugging Face Papers	✅	拉取 6 月全部论文，筛选 Agent/Coding/Embodied/Robotics 方向，纳入 6 篇主选论文
信源交叉核验	✅	GPT-5.6 信息由 OpenAI 官方 Blog + Deployment Safety 系统卡 + 新华网/证券时报多源印证
去重与质量门	✅	已完成 URL+标题去重，丢弃纯观点/无实质内容/无原始链接条目
标签分类	✅	每条按 [官方发布]/[产品更新]/[论文预印本]/[行业新闻]/[学术前沿]/[融资/人事] 标记