当前位置：首页 > news >正文

腾讯混元，终于回到了牌桌上

news 2026/7/2 17:11:15

2026 年 4 月，国内大模型市场像赶集一样热闹。智谱 AI 在 8 号发了 GLM-5.1，说自己能连续干 8 个小时的活；月之暗面在 20 号推出了 Kimi K2.6，可以调度 300 个智能体一起做事；DeepSeek 在 24 号放出了 V4 系列，把 API 价格打到几乎不要钱。腾讯混元正好卡在中间，23 号发了 Hy3 preview。

如果单看各项指标的排名，Hy3 这次并没有遥遥领先。它的参数是 295B，上下文 256K，主打一个“快慢思考融合”——听起来玄乎，说白了就是让模型在处理简单问题时快速响应，遇到复杂问题就慢下来仔细推演，像人一样切换思考节奏。更重要的是，它的代码能力终于补上了：SWE-Bench 从上一代的 53%涨到了 74.4%——上一代的代码能力基本没法用，这一代至少能干活了。

但如果把目光拉长一点看，Hy3 的意义可能不在于某个指标冲到了第一，而在于它证明了一件事：腾讯的大模型，终于不再是那个“你们聊我先走了”的角色了。

从 2021 到 2023：关门憋了两年多

腾讯做混元这件事，其实起步不算晚。2021 年内部就立项了，但那时大模型还不是风口，外界几乎没人知道。2022 年 4 月，他们第一次对外提“混元 AI 大模型”，也没引起多大动静。真正让圈内人注意到的是 2022 年底：混元搞出了一个万亿参数的 NLP 模型，号称是国内第一个低成本、可落地的，还登顶了 CLUE 榜单。那时候行业还在比拼参数规模，腾讯能低成本跑起来，说明工程师确实动了脑子。

但有个问题一直没解决：有模型，没产品。普通用户用不上，开发者也只能看着新闻知道有这么个东西。直到 2023 年 9 月，腾讯全球数字生态大会上，混元大模型才算正式亮相，通过腾讯云对外开放。紧接着内部成立了“混元助手”项目组，开始做对话式产品。这个时间点，比百度和阿里晚了将近半年——文心一言 3 月就上了，通义千问 4 月也出来了。腾讯跑得慢，是事实。

2024 到 2025：换挡提速

进入 2024 年，混元明显开始加速。1 月份全面切换到 MoE 架构——混合专家模型，这个技术切换很关键，如果不换，后面拼参数规模成本根本扛不住。5 月份，腾讯元宝 App 上线，C 端用户总算能亲自上手玩了。9 月份混元 Turbo 出来，推理速度提上去了，成本降下来了。11 月份，腾讯干了一件不太像它风格的事——把 MoE 模型“混元 Large”和一个 3D 生成模型给开源了。腾讯在开源上一向偏保守，这次愿意拿出来，说明内部对技术路线的自信度在涨。

到这一步，混元已经解决了“能用”的问题，但离“好用”还有距离。

2025 年是混元产品化最密集的一年。年初的 TurboS 用上了 Mamba-MoE 混合架构，5 月份那一波更新几乎把所有能做的模态都刷了一遍：TurboS 和 T1 迭代了，视觉推理模型出来了，端到端语音通话上线了，图像生成和 3D 生成也升级了。12 月底，混元 2.0 发布，MoE 架构下参数达到 406B，总算站上了规模的第一梯队。这一年，混元搭好了产品框架：混元大模型做技术底座，元宝 App 做 C 端入口，QClaw 做一个能操控电脑的本地智能体。

但是，框架归框架，能不能打还得看真本事。

Hy3 preview：补上了最关键的短板

2026 年 4 月 23 日发布的 Hy3 preview，最实在的变化就是代码能力的大幅提升。SWE-Bench 从 53%涨到了 74.4%，这意味着它从一个“写代码基本靠蒙”的模型，变成了一个“确实能帮你写点东西”的模型。快慢思考融合这个技术方向，也体现了一种思路上的转变：不再单纯追求“快”或者“大”，而是让模型自己去判断什么时候该快、什么时候该慢。

不过说实话，跟同期其他模型比，Hy3 并没有碾压谁。在 SWE-Bench Verified 和 Terminal-Bench 2.0 这两个更难的测试里，它的成绩低于智谱 GLM-5 和 Claude-Opus-4.6。在 SuperCLUE 那个综合评测里，DeepSeek V4-Pro 以 70.98 分排第一，混元没进前三。

那 Hy3 到底强在哪？便宜。腾讯把推理成本压得很低，定价在同尺寸模型里几乎最低。这个思路跟 DeepSeek 有点像——不争绝对第一，但给你一个够用又不心疼的方案。而且，Hy3 的发布还有一个微妙的背景：在这之前，腾讯元宝 App 就已经接入了 DeepSeek 的模型。当时很多人说“腾讯自研不行，得用别人的”。Hy3 出来后，局面就不一样了——腾讯手里有了自己的备选方案，用 DeepSeek 是因为它性价比确实好，但真到关键时刻，自己的模型也能顶上。

其他几家在干什么？

要看清混元的位置，得看看 DeepSeek、智谱和 Kimi 各自在走什么路。

DeepSeek 的路线最清晰，也最极端：极致性价比加上极致坦诚。V4-Pro 的总参数是 1.6 万亿，激活 490 亿，配上 1M 上下文，结果 API 价格低到百万 token 只要两分五厘钱。技术报告直接写“我们落后 GPT-5.4 大约三到六个月”——这种话大部分公司不敢说，说了就等于承认自己不是第一。但 DeepSeek 这么说，反而让人觉得它可信。当然，DeepSeek 也有自己的问题：到 4 月 20 日，它已经 140 天没发新模型了，在主流厂商里发布频率最低，核心成员魏浩然年初也离开了。

智谱 GLM 走的是另一条路：让 AI 干长活。GLM-5.1 能连续执行 8 小时的任务，从零构建一个 Linux 桌面系统，或者通过 655 轮迭代把一个数据库的查询吞吐量提升近 7 倍。它解决的不再是“回答一个问题”，而是“完成一个项目”。这条路子的商业逻辑也很清楚：既然我能在复杂场景里干活，那我就值这个价——GLM-5.1 在核心场景提价 10%，成了第一个在代码场景对标 Claude Opus 4.6 定价的国产厂商。

Kimi 的路子又不一样：用组团的方式解决问题。K2.6 可以同时调度 300 个子 Agent 并行协作，完成长达 4000 步的复杂任务。你让它读一批行业报告，它能自动生成多个前端设计方案，然后让不同的 Agent 分别评审、修改、打包交付——原来几周的事，压缩到几小时。有意思的是，K2.6 发布的同时 API 价格涨了 58%，从每百万 token 0.60 美元涨到 0.95 美元。这说明月之暗面想把重点放到高价值企业客户上，为预计 2026 年下半年的 IPO 铺路。

混元的位置：全能的追赶者

把这四家放在一起看，路线分化已经非常明显了。DeepSeek 做普惠，让每个开发者都用得起；智谱做深潜，让 AI 完成长周期复杂任务；Kimi 做集群，用规模化协作解决复杂问题；腾讯混元呢？

混元目前更像一个全能的追赶者——文本、图像、视频、3D、语音，什么都有，但什么都做不到第一。不过它有一个别人没有的优势：腾讯生态。微信、企业微信、腾讯云、腾讯文档，混元可以部署到这些动辄数亿用户的产品里。这个分发能力，DeepSeek、智谱、Kimi 都没有。

问题在于，生态优势还没有转化为产品优势。元宝 App 的用户量跟豆包、Kimi 比还有差距，QClaw 那个本地智能体也还在早期。Hy3 这一代最大的价值，可能不是某个指标冲到第一，而是向外界证明了一件事：腾讯自己能做出同级别“能用且便宜”的模型，不再需要被人质疑“为什么要自研”。

接下来往哪走？

姚顺雨在 2025 年底加入腾讯，出任首席 AI 科学家。他的背景是清华“姚班”毕业、普林斯顿博士，之前在 OpenAI 做研究员，参与过智能体产品的研发。他主导了底层架构的重构和 Hy3 的技术路线，快慢思考融合这个方向，更像是朝着模拟人类认知迈进了一步，而不是单纯堆参数。

但技术方向定了，产品怎么落地？腾讯最擅长的从来不是第一个做出来，而是把别人做出来的东西集成到自己的生态里，让几亿人在不知不觉中用上。微信支付不是第一个移动支付，腾讯云也不是第一个云服务。混元大概率也会走这条路——不追求在榜单上吊打所有人，而是让混元的能力渗透到腾讯的每一个产品里。你在企业微信里@一个机器人就能自动生成周报，在腾讯文档里打一行字就能配图，在 QQ 群里问个问题模型就帮你搜好答案。这些场景如果跑通了，比单纯刷榜更有价值。

当然，前提是混元得足够稳、足够便宜、足够好用。Hy3 已经把“好用”和“便宜”的问题解决了大半，“稳”还需要时间验证。国内这几家大模型公司，路线已经分化得很清楚了——DeepSeek 做普惠，智谱做深潜，Kimi 做集群，腾讯做生态。没有哪条路是绝对正确的，关键看谁能跑得久、跑得透。

混元起步慢了，但好在现在还在牌桌上。牌局还远没结束。

查看全文

http://www.cnnetsun.cn/news/2175332.html