当前位置: 首页 > news >正文

智谱开启狂飙模式!7倍提速,全球最快,旗舰模型即问即答

大模型推理速度天花板,又被捅破了。

5月22日,智谱上线GLM-5.1高速版API,接口名GLM-5.1-highspeed,输出速度跑到400 tokens/s,刷新全球大模型API速度纪录,比原版提速约7倍。比谷歌刚发的,主打速度与性能的旗舰模型Gemini 3.5 Flash还快一倍。

一个754B参数的旗舰模型,跑出了即问即答的速度,代码生成效率提升近10倍,过去因延迟卡住的产品形态,开始变得可行。

Token狂飙,股价也跟着狂飙涨了25%。1265的股价,排在了贵州茅台和寒武纪之后。

400 tokens/s怎么做到的

普通人阅读中文的速度大概每分钟300到500字,换算下来大约每秒5到8个token。

400 tokens/s,相当于模型输出速度是人阅读速度的50到80倍。你才开始读,它已经把整篇文档写完了。

此前全球大模型API的速度上限大约在50到60 tokens/s,400 tokens/s直接把数字翻了将近7倍。

GLM-5.1-highspeed与原版GLM-5.1对比,效果非常明显。前者30秒就跑完了,后者跑了7分钟。

这个速度由智谱GLM团队和TileRT团队联合打造,核心优化分三层推进。

推理引擎层,针对GLM-5.1的MoE(Mixture of Experts,混合专家)架构特点,重写了核心推理路径。MoE架构的特点是每次推理只激活部分专家,路由计算和专家调度的效率直接影响推理速度。重写后的推理路径把单卡吞吐能力拉了上去,打好了底层基础。

调度系统层,动态批处理、请求合并、KV缓存调度优化,三套组合拳一起上。

动态批处理让不同用户的请求智能打包,减少GPU空闲时间。请求合并把相似请求合并处理,避免重复计算。KV缓存调度优化让注意力计算中的键值对缓存命中率更高,重复内容不用反复算。

三招叠加的效果是,高并发场景下的尾延迟大幅降低。以往用户一多,排队时间就飙升,这套调度让多人同时调用时仍能保持低延迟。

基础设施层,推理集群部署、网络链路、负载均衡协同优化。

智谱特别强调了一点:400 TPS(每秒token数)不是一个峰值数字,是稳定可用的生产级能力。跑一秒400容易,持续稳定在400才难。

这背后需要对集群的每一层做精细调优,从GPU间通信的带宽分配到请求路由策略,任何一个环节的瓶颈都会拖垮整体吞吐。

更关键的技术细节来自TileRT团队。

当前主流推理框架以operator/kernel为基本调度单元,每个算子都要走一遍完整链路:host启动,读权重,计算,写回,同步。

推理进入单token、小batch、多卡TP(Tensor Parallel,张量并行)的场景后,算子被切到微秒级,调度、访存与同步的开销反而占了大部分时间,真正用于计算的比例很低。

就像一条流水线,每个工位都要走一遍审批流程,加工本身只要一秒,审批花了十秒。

TileRT抛弃Runtime层的动态调度,在AOT(Ahead-Of-Time,预编译)阶段把整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。

单卡之内,计算、异步IO和通信被拆解为Tile级微任务,整个推理过程只Launch一次Engine Kernel,算子间的中间结果不再写回Global Memory,经由Register(寄存器)、Shared Memory(共享内存)与L2 Cache直传,host调度和跨算子同步被压进同一个常驻kernel。

相当于把流水线的审批全去掉,所有工位同步开工,中间品不进仓库直接传下一站。

多卡层面,TileRT把SM(Streaming Multiprocessor,流多处理器)内部的Warp Specialization思路外推到整张8卡NVL拓扑。

不同GPU rank不再执行同构逻辑,按计算密度与数据依赖被特化为不同worker,有的专门做注意力计算,有的专门做前馈网络,各干各的专长活儿。

这种异构分工比传统同构并行效率高出一截。

TTFT(Time to First Token,首token延迟)压到了1秒以内。用户发一句话,还没反应过来,回答已经往外冒了。

快和强,终于不矛盾了

过去大模型推理常识是快的小,大的慢。

高速模型几乎总是轻量级模型,参数少、能力弱,速度快但干不了精细活儿。旗舰模型参数多、能力强,但推理慢,一个复杂问题等个十几秒是常态。

GLM-5.1高速版打破了这个惯例,第一次在国产大模型中把旗舰级能力和低延迟同时带入生产环境。它完整保留了GLM-5.1的综合能力与Coding能力,没有为了速度牺牲质量。

GLM-5.1作为智谱最新旗舰模型,它采用754B参数的MoE架构,256个专家混合,约44B激活参数,支持200K上下文与128K超长输出。

长程任务能力方面,能在单次任务中持续、自主地工作长达8小时,完成从规划、执行到迭代优化的完整闭环,交付工程级成果。

在SWE-bench Pro基准测试中,GLM-5.1拿到58.4分,国产模型首次超越Claude Opus 4.6,也是目前唯一达到8小时级持续工作的开源模型。

OpenRouter数据显示,GLM-5.1在编码和Agent能力上取得开源SOTA表现。

高速版在这些能力上没有缩水。同一个大脑,只是换了一套更快的神经系统。推理框架的优化改变的是信号传递速度,不改变大脑的思考深度。

AI编程场景中,代码生成效率提升约10倍,模型能同步理解工程上下文并输出方案。写代码这件事,原来等模型输出是效率瓶颈,现在变成了人思考的速度跟不上模型输出的速度。

3D游戏场景中,玩家输入文字后模型可实时调整场景,文字输入与场景即时联动。此前因为延迟问题,这类交互只能停留在概念阶段,玩家说一句话等5秒场景才变,体验很糟糕。400 tokens/s下,场景随语言变化几近实时,此前无法落地的产品形态开始具备可行性。

很多场景一下打开了。交互式应用生成、实时工具调用都不再是问题。

400 tokens/s的输出速度,TTFT小于1秒,GLM-5.1高速版能够应对一切响应延迟要求极高的场合。

Coding Agent(编程智能体)在工作时需要频繁调用模型,一轮任务可能涉及几十次甚至上百次模型请求。原来每次请求等几秒,累计下来效率很低。高速版让代码生成效率提升约10倍,Agent的迭代节奏从等模型输出变成了跟上自己的思路,连续调用不再是效率瓶颈。

实时交互,即问即答,体感跟跟真人聊天差不多。这种低延迟交互在客服、教育、心理咨询等场景中直接影响用户体验。

金融市场瞬息万变,行情分析、风险评估、策略生成都需要模型快速响应。慢一秒,可能就错过一个交易窗口。高速版让模型从辅助工具变成准实时决策引擎,数据进来,判断出去,延迟控制在人类反应时间之内。

文字描述与场景实时联动,虚拟世界和现实输入之间的墙被推倒了一半。

目前GLM-5.1高速版面向智谱MaaS(模型即服务)平台部分企业客户开放,官方暂未公布面向更广泛用户开放的时间计划。

大模型的竞争,正从谁更聪明,变成谁更快地聪明。

参考资料:

https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed

http://www.cnnetsun.cn/news/2558157.html

相关文章:

  • WPF中Style和ControlTemplate的触发器有什么不同
  • 对比直接使用厂商api体验taotoken在路由容灾方面的优势
  • 低成本DIY智能驱猫系统:基于PIR传感器与雨刮水泵的硬件方案
  • 项目文档:基于51单片机的篮球计分器设计
  • 对比直接调用厂商API使用Taotoken聚合调用的延迟体感差异
  • Zotero检索引擎完全指南:如何快速提升文献检索效率
  • Selenium搞不定的文件上传弹窗?试试Playwright的`page.expect_file_chooser()`监听大法
  • 数据要素与大安全:运营商藏在信令里的印钞机
  • CPU-GPU协同加速LLM推理:APEX技术解析与实践
  • Win11鼠标指针太单调?这3个宝藏网站让你免费下载上千款酷炫指针方案
  • 别再傻傻插显示器了!手把手教你用BMC远程给服务器装系统(以浪潮服务器为例)
  • Avidemux视频编辑工具终极指南:5个简单步骤快速上手专业剪辑
  • 量子计算模拟器性能优化:从内存墙到指令级并行
  • Node.js驱动树莓派GPIO:从网页控制LED到舵机实战指南
  • Python之rgb2ansi包语法、参数和实际应用案例
  • 如何在浏览器中解锁加密音乐文件:Unlock-Music完全指南
  • 摆脱论文困扰!2026年最值得拥有的专业AI智能降重工具
  • 别再死记硬背了!用Python脚本模拟UDS $34/$36/$37诊断刷写,5分钟搞懂数据流
  • Godot4.2实战:用自定义Array2D类快速生成随机地图与关卡数据
  • QKeyMapper完整指南:Windows上最强大的免费按键映射解决方案
  • 规则归纳、聚类与异常检测:大数据分类核心技术实战解析
  • CVE-2024-42323漏洞解析:HertzBeat SnakeYAML反序列化RCE实战修复指南
  • 别再只用数字波形了!Vivado模拟波形设置全解析(附总线图查看器实战)
  • 突破限制:开源引导工具让旧款Mac重获新生
  • 薄膜基底箔式应变计:高灵敏度、低功耗与坚固耐用的新一代传感技术
  • 3步解决NVIDIA显卡广色域显示器色彩失真:novideo_srgb硬件级色彩校准完全指南
  • 我们让AI学习历史Bug模式,新提交的代码自动标记风险等级
  • 深度解析:如何在浏览器中高效实现音乐文件格式转换与解密
  • 终极Avidemux视频编辑教程:5个简单步骤快速掌握专业级剪辑技巧
  • LRCGET:本地音乐歌词批量下载与同步的终极指南