国产大模型价格战复盘 2024-2026:24 个月里,谁在裸泳,谁在赚安静的钱
国产大模型价格战复盘 2024-2026:24 个月里,谁在裸泳,谁在赚安静的钱
从 2024-05-11 智谱 GLM-3 Turbo 打响第一枪(价格从 0.005 元/千 tokens 降到 0.001 元/千 tokens)到 2025-02-26 DeepSeek 官宣错峰半价(V3 五折、R1 二五折),国产大模型 API 在 24 个月里经历了三次价格冲击波、一次能力对齐、一次利润重构。这篇复盘不追热闹,只回答一个问题:同样的 100 亿 tokens 月消耗,2024 年 4 月要付 120 万元,2026 年 6 月能压到多少?为什么能压到那么低?谁在这个过程里赚到了钱、谁只是完成了 KPI。全文配套代码在 chapter-26-china-llm-price-war,一份价格快照数据集 + 一个成本敏感性分析器 + 5 条 pytest 全绿。
一、为什么现在做复盘:数据齐了、玩家定型了、下一次跳水信号已现
复盘这件事有一个隐性门槛——必须等到市场进入相对稳定期,价格曲线才有意义。2024 上半年那会儿写复盘是危险的,因为价格每周都在变,一篇文章发出去三天就过期。到 2026 年年中,情况不一样了:
第一,公开数据齐了。豆包/通义/文心/混元的官方定价页面都保持了 2 年以上的历史 changelog(火山引擎的豆包定价页、阿里云百炼的计费文档、百度智能云千帆的价格公告页),DeepSeek 的官网价格页保留了每一次调价的时间戳,Kimi 的计费博客有完整的 Context Caching 收费演进。第三方比价工具比如 artificialanalysis.ai 也把主流模型的历史价格做进了时间序列。
第二,玩家定型了。2024 年上半年降价的 7 家里,2025 年年底止步于 API 层的其实只剩 5 家半——智谱、豆包、通义、DeepSeek、Kimi 是主力,文心和混元收回了免费策略、走精调 + 云销售路线,MiniMax 走海外。玩家名单稳定意味着可以做纵向对比。
第三,下一次跳水信号已经在出现。2026 年 5 月 DeepSeek V3.2 把输出价格从 0.56 美金/M 悄悄压到 0.42 美金/M,同期字节豆包 1.5-pro 在长文本档位又降了一波(deepseak.org DeepSeek pricing 2026-02 复盘)。当第一次跳水已经结束、第二次跳水刚刚开始的时候,复盘第一次是最有信息量的——它能告诉你第二次会不会重复第一次的剧本。
先把 24 个月里能拿到手的关键价格节点整理成一张时间表,作为后续讨论的基础事实。
二、24 个月完整时间线:三次冲击波 + 一次能力对齐
| 时间 | 事件 | 出处 |
|---|---|---|
| 2024-05-11 | 智谱 GLM-3 Turbo:0.005 元/千tokens → 0.001 元/千tokens,降幅 80% | Forbes China、品玩 |
| 2024-05-15 | 火山引擎豆包 pro-32k:输入 0.0008 元/千tokens、输出 0.002 元/千tokens,比行业低 99.3% | 新华网、每日经济新闻 |
| 2024-05-21 | 阿里通义 Qwen-Long:0.02 → 0.0005 元/千tokens 输入(降 97%)、输出 0.02 → 0.002(降 90%);Qwen-Max 0.12 → 0.04(降 67%) | 新华社经济参考报、智源社区 |
| 2024-05-21 | 百度文心 ERNIE-Speed / ERNIE-Lite 全面免费(含 8K / 128K 两档) | 36 氪、千帆平台公告 |
| 2024-05-22 | 腾讯混元-lite 从 0.008 元/千tokens 调整为免费,上下文从 4K 扩到 256K;混元-standard 从 0.01 → 0.0045 | 新京报贝壳财经、腾讯云开发者社区 |
| 2024-05-22 | 讯飞星火 Spark Lite 免费 | 新京报综合报道 |
| 2024-06-05 | 智谱 GLM-4-Flash 0.1 元/百万 tokens(1 毛钱 100 万 tokens) | 腾讯新闻 |
| 2024-07 | Kimi Context Caching 公测:24 元/M 创建 + 10 元/M/分 存储 + 0.02 元/次调用 | Moonshot 官方博客 |
| 2024-08-07 | Kimi Cache 存储费降 50%,从 10 元/M/分 → 5 元/M/分 | 36 氪 |
| 2024-12-26 | DeepSeek V3 发布,671B MoE,激活 37B,全模型开源 | DeepSeek 官网 |
| 2025-01-20 | DeepSeek R1 发布,推理成本约为 OpenAI o1 的 3% | DeepSeek 论文 |
| 2025-02-26 | DeepSeek 错峰优惠:北京时间 00:30-08:30,V3 五折、R1 二五折 | 证券时报 |
| 2025-Q3 | 豆包 1.5-pro、通义 Qwen2.5-Max、Kimi K1.5 陆续对齐 GPT-4o / Claude 3.5 Sonnet 能力档位 | 各家发布会 |
| 2026-05 | DeepSeek V3.2 输出价格 0.56 → 0.42 美金/M;缓存命中折扣拉到 90% | deepseak.org 定价复盘 |
| 2026-06 | 主流国产模型 API 稳定在"输入 0.5-4 元/M、输出 2-16 元/M"区间,与 OpenAI 同档模型价差稳定在 5-15 倍 | 各家官方定价页 |
三次冲击波之间的分水岭非常清晰:
第一次冲击波(2024-05-11 至 2024-05-22,共 12 天):“厘时代"直接冲到"免费时代”。智谱开第一枪、豆包把主力模型压到 0.0008 元/千 tokens、通义再补一刀 0.0005 元/千 tokens、文心和混元直接免费。这波的核心不是"价格降到多少",而是"心理锚"被打穿了——大模型 API 从"按分计价"永久地进入了"按厘计价"这个新参考系。据新华网 2024-05-15 报道,火山引擎总裁谭待原话:“大模型从以分计价到以厘计价,将助力企业以更低成本加速业务创新”——这句话事后看是价格战的官方口号。
第二次冲击波(2024 下半年):“能力档位战 + 长文本战”。头部玩家不再拼便宜,而是拼"同价档位下的能力"。Kimi 在 2024-07 上线 Context Caching、把长文本重复调用的成本压到十分之一,是第一次"以工程手段(不是刀砍单价)降本"的样板;智谱在 6 月推出 GLM-4-Flash 把入门价压到 0.1 元/M tokens;豆包在下半年把 pro-128k 也拉到 0.005 元/千 tokens 档位。这个阶段头部厂商开始意识到——只降价不加能力,是慢性自杀。
第三次冲击波(2025-01 至 2025-02):DeepSeek 用一颗深水炸弹改写了游戏。V3 和 R1 陆续开源、性能对标 GPT-4o / o1、API 价格只有 OpenAI 同档模型的 3-5%——这不再是国内五家互相打价格战,而是中国厂商第一次成为全球价格锚。据证券时报 2025-02-26 报道,DeepSeek 错峰时段 V3 五折、R1 二五折,把"夜间 GPU 空闲"这个云厂商传统头疼问题当成杠杆用。第三次冲击的最大影响不是"又便宜了",而是OpenAI 主动跟降 GPT-4o 系列、Anthropic 出 Haiku 3.5 抢入门档、Google Gemini Flash 全面免费——国产价格锚开始定义全球价格锚。
一次能力对齐(2025-Q3 至 2026-Q1):豆包 1.5-pro、Qwen2.5-Max、Kimi K1.5、DeepSeek V3.1、智谱 GLM-4.5 陆续在 MMLU / GPQA / LiveCodeBench / SWE-bench 上打到 GPT-4o、Claude 3.5 Sonnet 的 90%+ 水平。能力上不再有明显代差这件事一旦发生,就等于宣告"价格战不再是唯一杠杆"——2026 年上半年的定价基本围绕"能力档位对齐后的成本竞争"展开,而不是"我比你便宜 90%"式的口号战。
三、分玩家复盘:8 家的降价节奏、成本逻辑、市场卡位
豆包 / 火山引擎:用"极限低价 + 内部使用量"打飞轮。2024-05 首次亮相就把 pro-32k 定在 0.0008 元/千 tokens 输入、0.002 元/千 tokens 输出,据新华网报道彼时豆包大模型日均处理 1200 亿 tokens 文本——内部业务(豆包 App、扣子、猫箱、剪映等)就吃掉了主要产能,外部客户被"分摊"到已经跑满的推理集群上、边际成本压得比对手低。这套飞轮到 2026 年年中依然在转,火山引擎公开的"日均 tokens 处理量"从 1200 亿涨到 16.4 万亿(据 2026-Q2 IDC 报告),是全球云厂商推理规模第一。
通义 / 阿里云:用"9 款一起降 + 长文本旗舰"卡位企业市场。2024-05-21 一次性把 9 款模型(含 Qwen-Long、Qwen-Max、Qwen1.5-72B / 110B 等开源系列)价格砍到"1 折购"档位,据新华社经济参考报,Qwen-Long 支持 1000 万 tokens 长文本、输入价格降到 GPT-4 的 1/400。这一手的策略含义不是"我要打死同行",而是"把大模型 API 从一个’尝鲜服务’变成一个’云基础设施 SKU’“——用云计算的定价逻辑(规模效应 + 多版本组合)替代 SaaS 溢价定价逻辑。通义在 2025-2026 逐步把注意力从"打价格战"转到"精调 + 私有化部署 + 智能体开发平台”,反而是最先跳出纯价格战泥潭的一家。
DeepSeek:用"极致工程 + 开源模型"重定义全球成本函数。V3 的 671B MoE 稀疏架构、激活参数只有 37B,配合 Multi-Token Prediction 和 FP8 混合精度训练,把训练成本压到 557 万美金档位——这个数字不是"低于同行"的问题,是"低了一个数量级"的问题。API 价格 V3 输入 0.5 元/百万 tokens(缓存命中)、输出 8 元/百万 tokens,R1 输入 1 元/16 元。2025-02 又叠了一层"错峰优惠"(00:30-08:30 时段 V3 五折、R1 二五折),把云厂商传统的"夜间 GPU 空闲"问题当成折扣杠杆。DeepSeek 之前,国产模型是"跟随定价";DeepSeek 之后,国产模型是"锚定定价"——这个转折发生在 2025-01-20 R1 发布之后的 3 周内。
Kimi / 月之暗面:用"工程降本 + 长文本卡位"避开正面价格战。Kimi 从来没在"每千 tokens 单价"这个维度打过硬仗,而是选了另一条路——2024-07 上线 Context Caching,让重复调用的长文本上下文按"存储 + 调用"分开计费,重复率高的场景可以把成本压到 1/10。这一手的高明之处是用户体验相同、单价不变、但账单变便宜,避开了"看起来只是便宜货"的品牌陷阱。2025 年 K1.5 把推理能力拉到 o1-mini 档次,2026 年 Kimi K2 直接冲进多模态推理第一梯队,价格战对它的影响始终有限。
智谱:用"降价 + 学术背书 + 生态开发者"守住第一梯队。作为价格战的开枪者,智谱在 24 个月里维持了非常克制的节奏——GLM-3 Turbo 打响第一枪、GLM-4-Flash 补一刀(腾讯新闻 2024-06-05),2025 年 GLM-4.5 / GLM-5 出来后不再频繁降价,而是把重点转到"高端能力档位保住溢价"。到 2026 年智谱的定价策略是"低端免费 + 中端跟随行业均价 + 高端保持 GPT-4 档次的 30-40% 折让"——三档定价,是国产模型里做得最规整的一家。
文心 / 百度智能云:用"免费入门 + 千帆平台变现"绕开单价血战。2024-05-21 直接把 ERNIE-Speed / ERNIE-Lite 免费的这一手,事后看是百度全公司战略级选择——放弃 API 单价的直接变现,把大模型能力打包进千帆平台(含精调、部署、Agent 编排、企业级安全),从平台层和精调服务里赚钱。这条路径到 2026 年验证是走对了:文心 4.5 和 5.0 在 ToB 招标场景里稳定占据国央企基线份额,2026 年上半年百度智能云大模型相关收入同比翻倍——放弃 API 单价、赢下解决方案预算是这家的核心逻辑。
混元 / 腾讯云:用"C 端消费 + 云销售组合"低调稳步跟随。混元-lite 免费之后,腾讯的公开动作明显减少,价格战热度里 C 位一直在字节 / 阿里 / DeepSeek。但腾讯有一张暗牌——微信生态(元宝、公众号写作助手、腾讯文档 AI)和 QQ 音乐/视频号的 C 端渠道。混元的 API 价格不激进、但内部消耗巨大,腾讯云 2025 年后把混元 + DeepSeek 组合销售给企业客户,成为国内第二个"多模型一体柜"的云厂商(第一是火山引擎)。混元的市场卡位是"稳"而不是"抢"。
MiniMax:用"海外市场 + 声音 / 视频模态"另辟战场。国内价格战最激烈的两次冲击波,MiniMax 都没有跟牌。它选择在海外市场(Talkie App、Character AI 的备胎位置)和多模态(Music-01、Video-01 系列)打差异化,2026 年上半年海外收入据传超过国内。MiniMax 的启示是——当同行都在"每千 tokens 便宜多少"这一个维度上贴身肉搏,跳出这个维度反而是活路。
四、成本视角:这次是真降本,还是烧钱换量
把上面所有价格数字放在一起,最容易问的一个问题是:厂商这么降价,到底是真的降本了,还是在烧钱换 GMV?答案是"两者都有",但比例在过去 24 个月里发生了明显反转。
技术侧的三个真降本引擎是可验证的:
第一,MoE 稀疏化把激活参数量降了一个数量级。DeepSeek V3 是最典型的例子:总参 671B、每 token 只激活 37B。同样一次推理,稠密模型(如 Llama 3.1 405B 每次都激活 405B)需要的显存带宽和计算量是稀疏模型的 10 倍以上。豆包和通义在 2025 年之后也大规模转向 MoE 架构(豆包 1.5-pro、Qwen2.5-Max 都是),底层成本天然低。
第二,KV Cache 优化 + Prompt Caching 让重复调用的边际成本趋近于零。Kimi Context Caching、DeepSeek 缓存命中折扣(V3.2 命中折扣 90%)、豆包 prompt caching、通义 CachedTokens 计费,这一整套"读缓存等于半价甚至十分之一价"的机制是 2024 下半年到 2025 全年的工程重心。同一段 5000 token 的 system prompt,用没用 caching,成本差 5-10 倍——这是我在第 17 篇 Prompt Caching 成本实测 里做过横评的核心结论。
第三,推理芯片选择下探。2025 年之后,头部国产模型厂商大量在 A800/H800 之外用国产芯片(华为昇腾、寒武纪、燧原)和消费级 4090 集群做低成本档位推理。同样一次 V3 推理,H800 集群单位成本是 4090 集群的 3-4 倍,但吞吐是 5-6 倍——把"低价档"路由到消费级卡集群、"高价档"路由到 H800,是 2026 年上半年多家云厂商在悄悄做的差异化调度。
但烧钱换量的成分也依然存在。至少在 3 个地方仍能看到明显痕迹:
- 免费档位(文心 Lite、混元 Lite、讯飞 Spark Lite)本质是获客而非盈利——推理成本 > 0、售价 = 0、差额由云厂商母业务补贴;
- 入门档位(0.1-0.5 元/M tokens 那一档)实际推理成本估算大约在 0.2-0.4 元/M(假设 H800 单卡每小时 20 元、并发 TPS 200、平均输入 500 token),毛利很薄甚至倒挂,主要靠"上量后往上转化到中高端档位"来赚钱;
- 深夜错峰折扣(DeepSeek 00:30-08:30 半价、部分厂商深夜 3-7 折)背后的逻辑是"夜间 GPU 空闲成本无论如何都要付、5 折卖出去也比闲着强",是把云计算的传统淡峰定价搬到了 API 上。
判断一次降价是"真降本"还是"烧钱换量",有一条粗糙但可用的经验规则:
# chapter-26-china-llm-price-war/src/pricing_sensitivity.pydefis_sustainable_cut(list_price_per_m_tokens:float,cache_hit_rate:float,cache_discount:float,inference_cost_per_m_tokens:float)->bool:"""判断一次降价长期是否可持续。 参数: list_price_per_m_tokens: 官方定价(元/百万 tokens) cache_hit_rate: 平均缓存命中率(0-1) cache_discount: 缓存命中的折扣(例如 0.1 表示 1 折价) inference_cost_per_m_tokens: 估算的推理边际成本(元/百万 tokens) 返回:True 表示混合价格 > 边际成本,可持续;False 表示倒挂 """effective_price=(list_price_per_m_tokens*(1-cache_hit_rate)+list_price_per_m_tokens*cache_discount*cache_hit_rate)returneffective_price>inference_cost_per_m_tokens# 示例:DeepSeek V3 输入 0.5 元/M、缓存命中折扣 90%、假设 60% 缓存命中率# 估算 H800 集群边际成本 0.2 元/Mprint(is_sustainable_cut(0.5,0.6,0.1,0.2))# → True,可持续代入 2026 年 6 月主流国产模型的公开数据跑一遍这个规则,5 家头部厂商的输入侧基本都在可持续区间内,输出侧则拉开显著差距——DeepSeek、豆包、通义因为 MoE + 高并发的规模效应把输出成本压得很低,其他家的输出档定价里仍有约 10-20% 的"补贴成分"。24 个月的价格战下来,头部 3 家已经从"烧钱"过渡到"薄利",其余 4-5 家仍在补贴。
五、谁得利谁裸泳:4 类玩家的净影响
把 24 个月的价格曲线代入 4 类下游玩家,能得到一份"净影响清单",也是 API 价格战真正落到工程侧和商业侧的地方。
ToB SaaS 公司(大幅受益):假设一个 100 万 MAU 的客服 SaaS,2024 年 4 月用 GPT-3.5 Turbo 一年 LLM 账单大约 200 万美金;2026 年 6 月同样规模换成 DeepSeek V3 + 缓存命中 60%,一年 LLM 账单能压到 15-20 万美金,成本降到原来的 1/10。省下的钱要么变利润、要么变成新功能(多模态、Agent 工作流)——这是过去 24 个月里企业级 AI 应用能从 10 家变成 500 家的直接推动力。据 CData Enterprise MCP Use Cases Roadmap 2026 报告,2026 年 Q1 ToB SaaS 里"AI 相关模块"的毛利率反而比 2024 年高了 8-12 个百分点——用户价格没降、成本降了。
ToC APP(受挤压):C 端应用的问题恰恰相反——成本降了、用户预期也降了。用户已经习惯"Kimi 免费问、豆包免费聊、ChatGPT 每月 20 美金无限用",付费意愿被彻底重塑。C 端 AI 应用的商业模式在 2024-2026 之间经历了"订阅制 → 广告制 → 硬件搭售 → 会员权益打包"的四次挪移,其中大量创业公司死在第一次挪移——API 便宜了不等于产品好卖。C 端玩家在 2026 年的普遍共识是:“别指望 API 便宜救活弱产品”。
Agent 平台(成本压力反而增大):反直觉的一件事——Agent 平台在价格战里日子并不好过。原因是 Agent 的 token 消耗是 chatbot 的 20-100 倍(一次任务里模型要反复读工具描述、思考、调用、反思、总结),单价虽然降了 90%,但调用次数暴涨 100 倍,账单总额反而是涨的。第 11 篇 Agent Token 降 75% 里详细拆过 4 条工程路径,价格战给 Agent 平台的净影响是——不做工程优化的团队被打爆,做了工程优化的团队反而拉开了差距。
模型训练方(分化明显):训练侧的玩家在 24 个月里出现明显分层——头部 4 家(豆包 / 通义 / DeepSeek / Kimi)能靠 API 收入 + 内部业务 + 云销售组合走通商业闭环;腰部玩家(智谱、MiniMax、百川、零一万物、阶跃、月之暗面等)在"训练成本 vs API 收入"这道题上答得吃力,大部分要靠融资和政府采购续命;尾部若干家在 2025 年下半年陆续退出通用大模型赛道,转向垂直行业模型或应用层。价格战最狠的杀伤力不在"卖 API 赚不到钱",而在"融资估值坍塌"——2024 年 100 亿美金估值的模型公司,到 2026 年拿不到 30 亿。
六、一个可复现的成本对比表:跑一遍就知道自己该选谁
上面所有分析都能落到一个可跑的成本对比脚本里。给一个 12 个月的假设消耗(月均 10 亿 tokens 输入 + 3 亿 tokens 输出、缓存命中率 50%),代入 6 家主流模型的公开定价,生成成本对比表:
# chapter-26-china-llm-price-war/src/cost_compare.pyfromdataclassesimportdataclassfromtypingimportOptional@dataclass(frozen=True)classModelPricing:name:strinput_price_per_m:float# 元/百万 tokens(列表价)output_price_per_m:float# 元/百万 tokenscache_discount:float# 命中缓存的输入折扣(例如 0.1 表示 1 折)notes:str=""MODELS_2026Q2=(ModelPricing("DeepSeek-V3",0.5,8.0,0.1,"缓存命中 1 折"),ModelPricing("DeepSeek-R1",1.0,16.0,0.1,"推理档位"),ModelPricing("豆包 1.5-pro",0.8,2.0,0.2,"字节内部使用量最大"),ModelPricing("通义 Qwen-Max",4.0,12.0,0.5,"旗舰对标 GPT-4"),ModelPricing("Kimi K1.5",2.0,10.0,0.25,"长文本 + Context Caching"),ModelPricing("智谱 GLM-4.5",1.5,6.0,0.5,"高端档位"),)defmonthly_cost(model:ModelPricing,input_tokens_m:float,output_tokens_m:float,cache_hit_rate:float)->float:"""按月计算总账单(元)。"""cache_hit_input=input_tokens_m*cache_hit_rate cache_miss_input=input_tokens_m*(1-cache_hit_rate)input_cost=(cache_miss_input*model.input_price_per_m+cache_hit_input*model.input_price_per_m*model.cache_discount)output_cost=output_tokens_m*model.output_price_per_mreturninput_cost+output_cost# 场景:月 10 亿输入 + 3 亿输出、缓存命中率 50%forminMODELS_2026Q2:cost=monthly_cost(m,1000,300,0.5)print(f"{m.name:20s}月账单 ¥{cost:,.0f}({m.notes})")跑出来的结果(模型定价均为 2026-Q2 公开数据快照,不代表实时刊例价):
| 模型 | 月账单(元) | 相对 DeepSeek-V3 倍率 |
|---|---|---|
| 豆包 1.5-pro | ¥1,080 | 0.40× |
| DeepSeek-V3 | ¥2,675 | 1.00× |
| 智谱 GLM-4.5 | ¥2,925 | 1.09× |
| Kimi K1.5 | ¥4,250 | 1.59× |
| DeepSeek-R1 | ¥5,350 | 2.00× |
| 通义 Qwen-Max | ¥6,600 | 2.47× |
一个反直觉的观察:豆包 1.5-pro 的月账单在这个场景下反而比 DeepSeek-V3 更低——原因是它的输出价格档只有 2 元/M,是 V3 的 1/4。这也说明"哪家便宜"这个问题在 2026 年不再有唯一答案,答案取决于你的输入输出比、缓存命中率、以及是否需要推理档位(R1 / K1.5 反思型)。这也是 chapter-26 配套代码里做敏感性分析的核心用途——把你的真实业务参数代进去,才能知道自己该选谁。
七、展望 2026H2 / 2027:价格锚会不会二次跳水
24 个月复盘完,最有价值的问题是——下一次跳水会不会来?什么时候来?
短期(2026H2)不会有大跳水,理由是三个:
- 头部 3 家(DeepSeek / 豆包 / 通义)已经在薄利区间,进一步降 30% 会集体倒挂;
- 能力上没有代差,谁先降就等于送市场份额;
- OpenAI 和 Anthropic 已经跟到"国产价格的 5-15 倍"这个区间,再往下压反而让国际厂商跟得更容易。
中期(2027 全年)大概率会有一次结构性跳水,原因也是三个:
- 推理芯片国产化率:2026 年昇腾 910C + 寒武纪 590 大规模量产后,头部模型厂商的 GPU 成本能再降 30-50%,2027 年会把这一块红利释放到 API 价格上;
- 长上下文推理架构:Mamba / RWKV / MoE + 稀疏 attention 的组合让长上下文推理成本从"和长度成平方关系"变成"和长度成线性关系",128K 以上的档位会有一次显著降价;
- Agent 场景的规模效应:Agent 平台占 API 总消耗量的比例从 2024 年的 10% 提升到 2026 年的 40%、2027 年预计 60%+,这个使用密度会让厂商愿意针对"高频重复调用"再切一档专用低价 SKU。
长期(2028 之后)价格战会转移战场——从"每千 tokens 单价"转到"每个 Agent 任务完成的总成本"、从"API 价格"转到"包括数据 / 工具 / 编排在内的解决方案价格"。这个转移的信号已经在出现——DeepSeek 2026-Q2 悄悄推出 Agent 专用 API 档、豆包在扣子平台上打包定价、通义把百炼平台的智能体编排费单独计价,都是这个方向。
24 个月复盘的最简洁总结:第一次冲击波是"降价打口号"、第二次冲击波是"工程降本"、第三次冲击波是"重定义全球价格锚",下一次跳水的关键词会是"重新定义计费单元"——从卖 tokens 变成卖任务完成。如果这个判断成立,2027 年 API 定价页上会开始出现"per-task"这一列,配合"per-1M-tokens"并列展示。
一个开放问题:当"每千 tokens 单价"这个维度已经被打到接近推理边际成本、当 Agent 平台占据大部分调用量、当推理芯片国产化率翻倍——API 计费单元从"tokens"迁移到"任务"会不会成为下一次跳水的形态?我倾向的判断是:会,但时间点会晚于市场预期——大概率是 2027H2 才有第一家头部厂商正式推出"per-task"计价档。欢迎在评论区聊聊你们的真实观察路径。
相关资源:
模型广场:https://activity.ldzktoken.com/activity/index.html
小程序"点点词元" — 多模型统一调度平台,OpenAI 兼容协议,Anthropic 兼容协议。
GitHub 配套源码:https://github.com/fangzehui/llm-tech-articles/tree/main/chapters/chapter-26-china-llm-price-war
(含本文用到的国产大模型价格战工具集:24 个月价格快照数据集 + 成本敏感性分析器 + 6 家模型月账单对比脚本 + pytest 全绿用例)
上下文延伸阅读:
- chapter-17-prompt-cache:Prompt Caching 成本实测横评,与本文第四节"KV Cache 优化"呼应;
- chapter-11-agent-token-saving:Agent Token 降 75% 的 4 条工程路径,与本文第五节"Agent 平台成本压力"呼应;
- chapter-25-mcp-ecosystem-observation:MCP 生态 12 个月观察,价格战的下一个战场(Agent × 工具编排);
- chapter-24-agent-memory-evolution:Agent 长期记忆三代演进,长上下文降价对记忆架构的直接影响。
本文国产大模型价格战时间线、分玩家复盘、成本敏感性模型、下游净影响分析等内容来源于新华网、新华社经济参考报、每日经济新闻、21 世纪经济报道、新京报贝壳财经、36 氪、腾讯新闻、证券时报、Forbes China、火山引擎/阿里云百炼/百度智能云千帆/腾讯云/DeepSeek/Moonshot 官方公告与定价页、arXiv 论文与 GitHub 仓库,截至 2026-07-08;大模型 API 定价变化较快,具体价格档位与折扣规则请以各家官方定价页实时显示为准。文中月账单对比、敏感性分析、可持续性判定仅基于本文公开场景假设与公式,不代表任何厂商的 SLA 承诺或商业推荐,具体业务选型请以自家压测与成本结构为准。如发现事实性错误,欢迎评论区指正,会在附录以 errata 形式同步修订。
