当前位置: 首页 > news >正文

2B以下全球最佳!AI训练AI,面壁小钢炮训练成本比英伟达低10%

面壁智能的新一代小钢炮来了。

5月25日,面壁智能联合清华大学、OpenBMB开源社区正式发布MiniCPM5-1B,1B(10亿)参数规模,在权威榜单Artificial Analysis(AA)上拿下17.9分,超越所有2B以下模型,包括参数翻倍的Qwen3.5-2B。

更小,更强,又一次验证了面壁持续追踪、曾登上Nature的密度定律:大模型智能密度约每3.5个月翻一番。

面壁小钢炮家族模型参数小,能量大,个顶个都非常能打。

而且,MiniCPM5-1B基础模型,竟然是AI亲手锻造的训练框架训出来的全球同尺寸最优的基座模型。

小钢炮的家底

面壁智能做端侧模型,不愧为“小钢炮”。从2024年2月至今,每一代小钢炮都在干同一件事:用更小的参数,打出超越体量的成绩。

2024年2月,初代面壁MiniCPM登场,2B参数,在多项主流评测榜单上超越了法国当红模型Mistral-7B,越级比肩Llama2-13B。

Int4量化后只占2GB内存,已经能跑在手机上。那会儿行业还在卷大参数,面壁反其道而行,把模型往小了做,往强了做。

同年9月,MiniCPM 3.0发布,4B参数,性能超越GPT-3.5-Turbo-0125,媲美多款7B至9B参数模型。量化后同样只需2GB内存,工具调用、代码解释、长文本处理都能跑。

面壁把这一代叫做端侧ChatGPT时刻,4B参数的模型在手机上跑出GPT-3.5级别的表现。

2025年6月,MiniCPM4.0上线,提供8B和0.5B两种参数规格。8B版本通过自研CPM.cu推理框架,在极限场景下实现最高220倍提速,常规5倍提速。0.5B版本继续以小博大。

同年8月,多模态版本MiniCPM-V 4.5开源,8B参数性能超越72B模型,行业首个具备高帧率视频理解能力的多模态模型。

2026年2月,MiniCPM-o 4.5发布,9B参数,全双工多模态实时流机制,同时看听说。

5月11日,MiniCPM-V 4.6发布,1.3B参数登顶同尺寸多模态榜单。

两年多时间,面壁小钢参数越来越小,能力越来越强,每一代都在刷新端侧模型的性能天花板。个顶个都是小参数、大能量。

这一代的主角,MiniCPM5-1B。

1B参数,大约是GPT-3的百分之一,大约是很多主流开源模型的十分之一甚至更少。面壁用这么小的模型,在AA榜单上拿了17.9分,超过Qwen3.5-2B的16.3分。参数少一半,分数还更高。

具体来看,MiniCPM5-1B在知识、数学推理、代码推理、工具调用等维度全面超越同尺寸基座模型,包括Qwen3.5-0.8B、LFM2.5-1.2B-Thinking等。

在AA的小尺寸模型榜单中,MiniCPM5-1B以17.9分位居第一,Qwen3.5-2B为16.3分。一个1B参数的模型,站在了2B参数规模的最顶端。

大模型的智能密度正在以约每3.5个月翻一番的速度持续提升。3个月前,Qwen3.5-2B还是2B参数规模的最优;3个月后,MiniCPM5-1B用一半参数超越了它。

更小的模型,承载了更高的智能密度。面壁曾联合清华大学在Nature上发表的研究,基于对51个主流大模型的严谨回测,揭示了这个规律:从2023年到2025年,大模型智能密度以每3.5个月翻倍的速度增长。

数据定上限

1B模型强大,靠的是训练数据的质量。

面壁在MiniCPM5-1B的训练过程中,构建了一套分级数据治理体系,将预训练数据按照质量从低到高划分为L0至L4五个等级,每一级对应不同的清洗、筛选和质量控制标准。

与其用海量低质数据灌出一个模型,不如用精选高密度数据养出一个模型。在1B参数规模下,每一条训练数据的质量都直接影响最终性能。

在这个体系之上,研究团队针对三个关键方向开展大规模高质量预训练数据合成:高知识密度中文网页语料、高知识密度英文网页语料、高质量数学合成语料。三个方向,精准发力。

高质量合成数据集Ultra-FineWeb-L3也将随模型一起开源,供社区使用和研究。

https://huggingface.co/collections/openbmb/ultradata

这一点值得多说一句,面壁每次发模型都把训练数据一并开源,这在行业里不多见。模型开源不稀奇,数据也开源,才是真开源。

AI造AI

MiniCPM5-1B的Base Model版本,由面壁即将发布的AI训练框架ForgeTrain在国产芯片上预训练完成。

ForgeTrain是全球首个完全由AI编写的生产级大模型训练框架,全部代码由AI生成,人类工程师零代码介入。

在英伟达H100上,ForgeTrain的训练速度超越英伟达自家的Megatron框架,快了约10%,相当于训练成本下降10%。

一个由AI编写的训练框架,训出了全球2B以下参数规模综合性能最优的基座模型。

AI制造AI,已经在持续产出可验证的、性能领先的成果。

Anthropic CEO Dario Amodei预言2028年AI能编写AI,面壁用ForgeTrain加MiniCPM5-1B的组合给出了一个提前量。

这个方向叫递回归智能(RSI,Recursive Self-Improvement),AI自我改进、自我进化的能力。ForgeTrain证明了这条路走得通,而且产出的结果经得起公开榜单的检验。

几乎啥设备都能跑

MiniCPM5-1B几乎啥设备都能跑。INT4量化后权重仅0.5GB,占用空间比一部短视频还小。

运行环境的兼容性也很广。

有GPU,直接跑FP16,性能拉满。

只有CPU,面壁联合清华大学、OpenBMB开源了自研CPU推理框架ArcLight,专门为纯CPU环境做了深度优化,没有显卡也能流畅对话。

https://github.com/OpenBMB/ArcLight

面壁对MiniCPM5-1B的定位是:零门槛端侧模型,不挑硬件,不挑平台,不挑用户。只要你想跑,就一定能跑起来。

微调方面,支持Llama_factory、ms_swift等主流微调框架。

推理方面,适配SGLang、vLLM、llama.cpp、ollama、Hugging Face、ArcLight等推理框架。

还提供了配套的安装skills,如果你在用Claude Code或类似的AI编程工具,可以直接让AI帮你完成环境配置和部署,用AI装AI,一行命令都不用自己敲。

https://github.com/OpenBMB/MiniCPM/tree/main/skills

1B参数的模型能干什么?

面壁给了一个很生动应用示例:AI桌宠。

https://www.youtube.com/watch?v=Ee0slMW8SEk

跑在你的手机上、电脑上,无论何时何地、有网没网,都能贴心陪伴。

不需要GPU集群,不需要云端API,一台普通笔记本、一部手机已足够。

端侧AI真正激动人心的地方,不是把云端大模型的能力打折后塞进小设备,而是让小尺寸模型本身就足够强,强到能独立驱动真实应用。

MiniCPM5-1B现已全面开源,包括模型权重、训练数据集与部署方案。

更小的参数,更高的智能,更低的门槛,面壁小钢炮又往前走了一步。

参考资料:

https://modelscope.cn/models/OpenBMB/MiniCPM5-1B

https://huggingface.co/openbmb/MiniCPM5-1B

https://github.com/OpenBMB/MiniCPM

https://github.com/OpenBMB/MiniCPM-Desk-Pet

http://www.cnnetsun.cn/news/2601586.html

相关文章:

  • 鸣潮自动化工具ok-ww终极指南:解放双手,轻松享受游戏乐趣
  • 从网格到判决:硬判决Viterbi译码的算法核心与实现解析
  • Unity ShaderGraph实战:从零构建你的第一个可视化着色器
  • OK3568开发板 wifi连接问题总结
  • C++ -- 哈希表实现
  • 从词嵌入到RNN(其一)
  • ChatGPT提示工程黄金法则:从入门到专家级输出,7步构建高精度Prompt(附NASA/微软内部验证模板)
  • 如何在10分钟内成为虚幻引擎游戏资源探索专家:FModel完全指南
  • 虚拟化- x86 频率调节方法
  • 大模型概念乱?5层框架助你秒懂,快速上手AI编程!
  • 观察 taotoken 平台在高峰时段的模型服务可用性与路由表现
  • 为什么猫抓插件是你浏览网页时的必备神器:解锁媒体资源下载的完整指南
  • 3分钟掌握Text-Grab:Windows上最轻量的OCR文字提取神器终极指南
  • 测试管理软件选型全攻略:从需求分析到落地实践
  • 无人机输电线路巡检 电力部件与缺陷检测数据集 智慧电力电网巡检识别 yolo数据集+voc数据集第10262期
  • 从被动补丁到主动防御:Glasswing理念重塑漏洞与威胁暴露管理
  • 大气网格化监测气象站:一张网管住城市空气质量
  • 基于拉格朗日规划神经网络的TOA多源联合定位原理与实现
  • 在Taotoken平台试用最新旗舰模型Qwen37的实际体验与响应速度
  • 告别无效分区表:UEFI+GPT下Ubuntu 20.04 U盘安装分区实战指南
  • Albion Online 数据驱动决策:如何用统计分析工具提升你的游戏收益
  • 智能合约安全实践对AI系统安全的启示:基于林迪效应的韧性架构设计
  • 突破百度网盘限速壁垒:baidu-wangpan-parse技术解析与实战指南
  • 免费开源Mac应用大全:689款精选工具完全指南
  • 戴森球计划FactoryBluePrints蓝图仓库:8000+工厂蓝图打造高效星际帝国
  • 防雷接地方案及交底,看这一篇就够了!
  • 免费解锁Minecraft世界的终极数据编辑神器:NBTExplorer完全指南
  • 如何在Windows上轻松安装安卓应用?APK安装器完全指南
  • 逆向思维实战:通过CE的TutorialGame,我重新理解了游戏内存数据的结构与Hook的艺术
  • 构建基于向量检索与LLM的智能On-Call系统:从告警到知识沉淀