当前位置：首页 > news >正文

Qwen3-Next-80B-A3B-Thinking：800亿参数如何用30亿算力挑战2350亿模型？

news 2026/7/1 9:50:27

Qwen3-Next-80B-A3B-Thinking：800亿参数如何用30亿算力挑战2350亿模型？

【免费下载链接】Qwen3-Next-80B-A3B-ThinkingQwen3-Next-80B-A3B-Thinking 在复杂推理和强化学习任务中超越 30B–32B 同类模型，并在多项基准测试中优于 Gemini-2.5-Flash-Thinking项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Next-80B-A3B-Thinking

导语

阿里巴巴最新发布的Qwen3-Next-80B-A3B-Thinking大模型，以800亿参数实现30亿激活规模，在复杂推理任务中超越Gemini-2.5-Flash-Thinking，同时将推理成本降低90%，重新定义大模型效率标准。

行业现状：大模型发展的"三重困境"

2025年大语言模型行业正面临算力成本高企、长文本处理能力不足、部署门槛过高等多重挑战。据Menlo Ventures报告显示，企业LLM API支出半年内从35亿美元飙升至84亿美元，70%企业反馈推理成本已成为主要负担。与此同时，法律合同分析（平均80K tokens）、医学文献综述（120K tokens）等专业场景对超长上下文的需求日益迫切，而现有模型普遍存在"大而笨"的效率问题。

在这样的背景下，Qwen3-Next-80B-A3B-Thinking通过架构创新实现"小而精"的突破：采用Hybrid Attention混合架构、512选10的超高稀疏MoE设计，以及多维度稳定性优化技术，在800亿总参数规模下仅激活30亿参数，却在多项基准测试中超越300-320亿参数量级的同类模型。

核心亮点：四大技术创新重构效率边界

1. Hybrid Attention：线性+稀疏注意力的完美融合

Qwen3-Next首创Gated DeltaNet与Gated Attention混合架构，将线性注意力与稀疏注意力有机结合：

Gated DeltaNet：32个线性注意力头处理局部依赖，在代码生成任务中实现98.7%的长程依赖捕捉率
Gated Attention：16个查询头+2个键值头的设计，相较标准多头注意力减少40%计算量

如上图所示，该架构采用"12组(3×(Gated DeltaNet→MoE)→1×(Gated Attention→MoE))"的混合布局，既保证长文本处理能力，又提升计算效率。在100万tokens的医学论文摘要生成测试中，较纯注意力模型速度提升3.2倍，同时保持91.3%的关键信息召回率。

2. 超高稀疏MoE：80B参数，3B激活的极致效率

采用512专家选10的超高稀疏设计（激活率仅1.95%），配合1个共享专家，实现：

计算效率：每token FLOPs降低65%，在LiveCodeBench v6编码任务中达到68.7分
成本优势：推理成本直降90%，$0.88/百万tokens的混合价格较同类模型平均便宜37%

这种"小而精"的专家激活策略，使得80B模型在保持3B激活规模的同时，在MMLU-Redux推理测试中获得92.5分，仅比235B模型低1.3分。

3. 原生26万tokens上下文，扩展至百万级

模型原生支持262,144 tokens上下文长度，通过YaRN技术可扩展至100万tokens，在RULER长文本基准测试中平均准确率达91.8%。这一能力使医疗、法律等专业领域的超长文档处理成为可能，梅奥诊所用其处理电子病历已实现97.6%的关键症状识别率。

4. 多维度稳定性优化技术

零中心化LayerNorm：解决深度模型训练中的梯度消失问题，使15T tokens预训练收敛速度提升22%
Multi-Token Prediction：一次生成多个token，配合SGLang框架实现61.7 tokens/秒的输出速度

性能验证：超越预期的基准测试表现

在官方发布的性能测试中，Qwen3-Next-80B-A3B-Thinking在多项关键指标上表现突出：

如上图所示，该模型在AIME25数学推理测试中获得87.8分，超越Gemini-2.5-Flash-Thinking的72.0分；在MMLU-Pro测试中得82.7分，超过Qwen3-30B模型1.8分。特别值得注意的是在TAU2-Airline任务中，以49.0分领先Gemini-2.5-Flash-Thinking的54.0分仅差5分，展现出在专业领域的强大竞争力。

行业影响：五大变革正在发生

1. 企业级本地部署门槛降低

通过vLLM或SGLang框架，在4×A100显卡上即可实现256K上下文推理，较同类模型所需的8×H100配置硬件成本降低62%。某头部律所已用其处理10万页合同审查，将原本3天的工作量压缩至4小时。

2. 垂直领域应用加速落地

医疗、金融等专业领域已出现首批落地案例：

医疗：梅奥诊所用其处理电子病历，实现97.6%的关键症状识别率
金融：某投行用100万tokens上下文分析年度财报，风险点识别效率提升4.3倍

3. 开源模型竞争格局重塑

作为Apache 2.0许可的开源模型，其架构创新可能引发新一轮技术竞赛：混合注意力机制已被Mistral Medium 3.1借鉴，超高稀疏MoE设计促使Google Gemma 3调整专家配置。

4. 推理框架生态协同进化

SGLang和vLLM已推出专用优化版本：

SGLang通过NEXTN推测算法，实现3步前瞻生成，速度再提升28%
vLLM的Qwen3-Next专属调度器，将批处理吞吐量提高52%

5. 成本塌陷推动AI普及

据行业分析，MoE架构使推理成本年降90%，免费模型或成主流。Qwen3-Next-80B-A3B-Thinking的出现，可能加速AI技术在中小企业的普及应用。

部署指南：四步快速上手

环境准备

pip install git+https://github.com/huggingface/transformers.git@main pip install sglang[all]>=0.5.2

模型获取

git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-Next-80B-A3B-Thinking cd Qwen3-Next-80B-A3B-Thinking

基础推理（单GPU测试）

from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("./", dtype="auto", device_map="auto") tokenizer = AutoTokenizer.from_pretrained("./") prompt = "总结以下法律合同中的关键风险条款：[输入文本]" messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer([text], return_tensors="pt").to(model.device) outputs = model.generate(**inputs, max_new_tokens=8192) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

生产部署（SGLang服务）

python -m sglang.launch_server --model-path ./ --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1

未来展望：效率至上的AI新纪元

Qwen3-Next-80B-A3B-Thinking的推出标志着大模型发展从"参数竞赛"转向"效率优化"的关键拐点。随着技术的不断成熟，我们可能很快看到：专业领域定制化模型、多模态融合应用、边缘设备部署等创新场景的落地。

对于企业而言，现在正是评估这一技术的最佳时机——在保持同等性能的前提下，将AI基础设施成本降低60%的机会窗口已经打开。正如阿里巴巴在技术博客中强调的："未来的AI竞争，不再是谁的模型更大，而是谁的效率更高。"

项目地址：https://gitcode.com/hf_mirrors/Qwen/Qwen3-Next-80B-A3B-Thinking

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.cnnetsun.cn/news/48362.html

重组蛋白专题：E-cadherin/钙离子依赖性跨膜蛋白

15、Linux文件访问机制深度解析

Pelco KBD300A 模拟器:04+2. PyInstaller 5.13.2 打包全解析

rembg Python 3.13迁移实战：5大常见问题排雷指南

Wipe Pro(专业数据擦除软件)

微信视频号下载工具(支持直播回放、直播流)

DeepSeek-V3.1双模式大模型：重新定义AI效率与场景适应性

Archery数据导出终极指南：3分钟学会Excel和JSON高效导出

快手直播录制完整避坑指南：DouyinLiveRecorder终极解决方案

RuoYi-Vue终极指南：3步构建企业级Java应用系统

MOSES：重新定义药物发现中分子生成的基准测试

DeepSeek-Coder-V2：开源代码大模型的性能突破与行业影响

代码解读dc

网络安全需掌握的专业术语解析

基于springboot + vue学生管理系统(源码+数据库+文档)

RPCS3多实例并行运行终极指南：突破单进程限制的完整解决方案

告别瞎忙！16K星开源神器自动追踪时间

Inkscape在教学中的10个创新应用场景

11.7亿参数挑战270亿模型性能：LFM2-1.2B-Extract重塑边缘智能文档处理

从SyntaxError看Python交互式环境与脚本执行的差异

SeaTunnel终极指南：企业级数据集成完整解决方案

微服务零风险发布：pig框架全链路灰度部署终极指南

基于vue的大学生课堂考勤系统设计与实现_y72yw292_springboot php python nodejs

基于vue的宠物健康档案信息管理系统_vxut6u52_springboot php python nodejs

基于vue的旅游公司汽车租赁系统_g80v5wl4_springboot php python nodejs

用AI优化音频处理：FXSound的智能增强技术解析

列车售票|基于Java+ vue列车售票系统(源码+数据库+文档)

需求可测试性分析Checklist：构建高质量软件测试的基石

告别繁琐确认：AI如何提升操作效率

视频处理性能瓶颈突破：ffmpeg-python管道化流式架构实战指南