当前位置: 首页 > news >正文

腾讯混元,终于回到了牌桌上

2026 年 4 月,国内大模型市场像赶集一样热闹。智谱 AI 在 8 号发了 GLM-5.1,说自己能连续干 8 个小时的活;月之暗面在 20 号推出了 Kimi K2.6,可以调度 300 个智能体一起做事;DeepSeek 在 24 号放出了 V4 系列,把 API 价格打到几乎不要钱。腾讯混元正好卡在中间,23 号发了 Hy3 preview。

如果单看各项指标的排名,Hy3 这次并没有遥遥领先。它的参数是 295B,上下文 256K,主打一个“快慢思考融合”——听起来玄乎,说白了就是让模型在处理简单问题时快速响应,遇到复杂问题就慢下来仔细推演,像人一样切换思考节奏。更重要的是,它的代码能力终于补上了:SWE-Bench 从上一代的 53%涨到了 74.4%——上一代的代码能力基本没法用,这一代至少能干活了。

但如果把目光拉长一点看,Hy3 的意义可能不在于某个指标冲到了第一,而在于它证明了一件事:腾讯的大模型,终于不再是那个“你们聊我先走了”的角色了。


从 2021 到 2023:关门憋了两年多

腾讯做混元这件事,其实起步不算晚。2021 年内部就立项了,但那时大模型还不是风口,外界几乎没人知道。2022 年 4 月,他们第一次对外提“混元 AI 大模型”,也没引起多大动静。真正让圈内人注意到的是 2022 年底:混元搞出了一个万亿参数的 NLP 模型,号称是国内第一个低成本、可落地的,还登顶了 CLUE 榜单。那时候行业还在比拼参数规模,腾讯能低成本跑起来,说明工程师确实动了脑子。

但有个问题一直没解决:有模型,没产品。普通用户用不上,开发者也只能看着新闻知道有这么个东西。直到 2023 年 9 月,腾讯全球数字生态大会上,混元大模型才算正式亮相,通过腾讯云对外开放。紧接着内部成立了“混元助手”项目组,开始做对话式产品。这个时间点,比百度和阿里晚了将近半年——文心一言 3 月就上了,通义千问 4 月也出来了。腾讯跑得慢,是事实。


2024 到 2025:换挡提速

进入 2024 年,混元明显开始加速。1 月份全面切换到 MoE 架构——混合专家模型,这个技术切换很关键,如果不换,后面拼参数规模成本根本扛不住。5 月份,腾讯元宝 App 上线,C 端用户总算能亲自上手玩了。9 月份混元 Turbo 出来,推理速度提上去了,成本降下来了。11 月份,腾讯干了一件不太像它风格的事——把 MoE 模型“混元 Large”和一个 3D 生成模型给开源了。腾讯在开源上一向偏保守,这次愿意拿出来,说明内部对技术路线的自信度在涨。

到这一步,混元已经解决了“能用”的问题,但离“好用”还有距离。

2025 年是混元产品化最密集的一年。年初的 TurboS 用上了 Mamba-MoE 混合架构,5 月份那一波更新几乎把所有能做的模态都刷了一遍:TurboS 和 T1 迭代了,视觉推理模型出来了,端到端语音通话上线了,图像生成和 3D 生成也升级了。12 月底,混元 2.0 发布,MoE 架构下参数达到 406B,总算站上了规模的第一梯队。这一年,混元搭好了产品框架:混元大模型做技术底座,元宝 App 做 C 端入口,QClaw 做一个能操控电脑的本地智能体。

但是,框架归框架,能不能打还得看真本事。


Hy3 preview:补上了最关键的短板

2026 年 4 月 23 日发布的 Hy3 preview,最实在的变化就是代码能力的大幅提升。SWE-Bench 从 53%涨到了 74.4%,这意味着它从一个“写代码基本靠蒙”的模型,变成了一个“确实能帮你写点东西”的模型。快慢思考融合这个技术方向,也体现了一种思路上的转变:不再单纯追求“快”或者“大”,而是让模型自己去判断什么时候该快、什么时候该慢。

不过说实话,跟同期其他模型比,Hy3 并没有碾压谁。在 SWE-Bench Verified 和 Terminal-Bench 2.0 这两个更难的测试里,它的成绩低于智谱 GLM-5 和 Claude-Opus-4.6。在 SuperCLUE 那个综合评测里,DeepSeek V4-Pro 以 70.98 分排第一,混元没进前三。

那 Hy3 到底强在哪?便宜。腾讯把推理成本压得很低,定价在同尺寸模型里几乎最低。这个思路跟 DeepSeek 有点像——不争绝对第一,但给你一个够用又不心疼的方案。而且,Hy3 的发布还有一个微妙的背景:在这之前,腾讯元宝 App 就已经接入了 DeepSeek 的模型。当时很多人说“腾讯自研不行,得用别人的”。Hy3 出来后,局面就不一样了——腾讯手里有了自己的备选方案,用 DeepSeek 是因为它性价比确实好,但真到关键时刻,自己的模型也能顶上。


其他几家在干什么?

要看清混元的位置,得看看 DeepSeek、智谱和 Kimi 各自在走什么路。

DeepSeek 的路线最清晰,也最极端:极致性价比加上极致坦诚。V4-Pro 的总参数是 1.6 万亿,激活 490 亿,配上 1M 上下文,结果 API 价格低到百万 token 只要两分五厘钱。技术报告直接写“我们落后 GPT-5.4 大约三到六个月”——这种话大部分公司不敢说,说了就等于承认自己不是第一。但 DeepSeek 这么说,反而让人觉得它可信。当然,DeepSeek 也有自己的问题:到 4 月 20 日,它已经 140 天没发新模型了,在主流厂商里发布频率最低,核心成员魏浩然年初也离开了。

智谱 GLM 走的是另一条路:让 AI 干长活。GLM-5.1 能连续执行 8 小时的任务,从零构建一个 Linux 桌面系统,或者通过 655 轮迭代把一个数据库的查询吞吐量提升近 7 倍。它解决的不再是“回答一个问题”,而是“完成一个项目”。这条路子的商业逻辑也很清楚:既然我能在复杂场景里干活,那我就值这个价——GLM-5.1 在核心场景提价 10%,成了第一个在代码场景对标 Claude Opus 4.6 定价的国产厂商。

Kimi 的路子又不一样:用组团的方式解决问题。K2.6 可以同时调度 300 个子 Agent 并行协作,完成长达 4000 步的复杂任务。你让它读一批行业报告,它能自动生成多个前端设计方案,然后让不同的 Agent 分别评审、修改、打包交付——原来几周的事,压缩到几小时。有意思的是,K2.6 发布的同时 API 价格涨了 58%,从每百万 token 0.60 美元涨到 0.95 美元。这说明月之暗面想把重点放到高价值企业客户上,为预计 2026 年下半年的 IPO 铺路。


混元的位置:全能的追赶者

把这四家放在一起看,路线分化已经非常明显了。DeepSeek 做普惠,让每个开发者都用得起;智谱做深潜,让 AI 完成长周期复杂任务;Kimi 做集群,用规模化协作解决复杂问题;腾讯混元呢?

混元目前更像一个全能的追赶者——文本、图像、视频、3D、语音,什么都有,但什么都做不到第一。不过它有一个别人没有的优势:腾讯生态。微信、企业微信、腾讯云、腾讯文档,混元可以部署到这些动辄数亿用户的产品里。这个分发能力,DeepSeek、智谱、Kimi 都没有。

问题在于,生态优势还没有转化为产品优势。元宝 App 的用户量跟豆包、Kimi 比还有差距,QClaw 那个本地智能体也还在早期。Hy3 这一代最大的价值,可能不是某个指标冲到第一,而是向外界证明了一件事:腾讯自己能做出同级别“能用且便宜”的模型,不再需要被人质疑“为什么要自研”。


接下来往哪走?

姚顺雨在 2025 年底加入腾讯,出任首席 AI 科学家。他的背景是清华“姚班”毕业、普林斯顿博士,之前在 OpenAI 做研究员,参与过智能体产品的研发。他主导了底层架构的重构和 Hy3 的技术路线,快慢思考融合这个方向,更像是朝着模拟人类认知迈进了一步,而不是单纯堆参数。

但技术方向定了,产品怎么落地?腾讯最擅长的从来不是第一个做出来,而是把别人做出来的东西集成到自己的生态里,让几亿人在不知不觉中用上。微信支付不是第一个移动支付,腾讯云也不是第一个云服务。混元大概率也会走这条路——不追求在榜单上吊打所有人,而是让混元的能力渗透到腾讯的每一个产品里。你在企业微信里@一个机器人就能自动生成周报,在腾讯文档里打一行字就能配图,在 QQ 群里问个问题模型就帮你搜好答案。这些场景如果跑通了,比单纯刷榜更有价值。

当然,前提是混元得足够稳、足够便宜、足够好用。Hy3 已经把“好用”和“便宜”的问题解决了大半,“稳”还需要时间验证。国内这几家大模型公司,路线已经分化得很清楚了——DeepSeek 做普惠,智谱做深潜,Kimi 做集群,腾讯做生态。没有哪条路是绝对正确的,关键看谁能跑得久、跑得透。

混元起步慢了,但好在现在还在牌桌上。牌局还远没结束。

http://www.cnnetsun.cn/news/2175332.html

相关文章:

  • 为什么你的Swoole-LLM服务凌晨3点必崩?——基于eBPF追踪的FD耗尽与SSL握手超时深度诊断
  • 别再死磕协议文档了!用Verilog手搓一个MPHY PWM Burst状态机(附源码)
  • 企业级文档转换架构深度解析:Mammoth.js高性能Word转HTML技术实现原理
  • 从三角波到正弦波:聊聊模拟电路中那些有趣的“波形变形记”与ICL8038芯片实战
  • 带 CSS 样式模式的甘特图开发代码|Highcharts Gantt高级开发示列
  • 国家中小学智慧教育平台电子课本解析工具:一站式PDF下载终极解决方案
  • 2025届学术党必备的十大降AI率工具实际效果
  • 别只调P和I!深入拆解追球小车的双PID控制逻辑:距离保持与角度对准
  • 利用Taotoken访问控制功能,安全管理团队内部AI资源使用
  • R语言做LLM偏见检测,你还在用`prop.test()`?——2024最新面试真题:多组敏感属性嵌套Logistic回归+多重比较校正(Bonferroni vs. BH)实战对比
  • 告别破解!MZ-Tools 8.0.1 官方正版安装与配置全攻略(支持VS2022)
  • 蚂蚁TimeMixer实战:用这个ICLR 2024新模型搞定你的时序预测任务(附PyTorch代码)
  • 告别云端API:手把手教你用Ollama在Mac/Win/Linux本地跑Llama 3和Phi-3(附Docker部署)
  • Pearcleaner架构解析:macOS应用残留文件的系统性清理方案
  • Illustrator脚本架构解析:从自动化工具到设计工作流引擎的技术演进
  • RT-Thread FinSH控制台保姆级使用指南:从串口连接到自定义命令实战
  • Claude 写的代码,到底算谁的?
  • 用Vivado FIFO IP核搞定跨时钟域通信:一个异步FIFO的完整设计实例(附仿真代码)
  • 3分钟快速上手:用easy-topo轻松绘制专业网络拓扑图
  • 2026年潮安高端定制生产厂家如何选材与设计?
  • 别再为传参发愁了!SAP ABAP中CL_HTTP_CLIENT发送POST请求的三种数据格式详解(JSON/Form-data/x-www-form-urlencoded)
  • 金融虚假信息检测中LLM行为偏差与MFMD-Scen基准研究
  • 为什么选择ComfyUI Photoshop插件:5个实战技巧提升AI创作效率300%
  • 原来微信误删记录能免费恢复,可惜很多人不知道
  • 基于Node.js与gRPC的实时文本转语音驱动数字人面部动画实践
  • 一个开发者的AI工具链优化实录:从三个会员到一站搞定
  • 指尖的算法:用PianoPlayer重塑钢琴演奏的智能旅程
  • 告别内存焦虑:用STM32F4的FSMC外扩PSRAM,让你的项目缓存飞起来
  • PvZ Toolkit终极指南:3步解锁植物大战僵尸无限可能
  • 对比直接使用原厂 API 体验 Taotoken 在接入便捷性上的优势