当前位置：首页 > news >正文

小米开源端到端语音大模型MiMo-Audio：语音AI迈入上下文学习新纪元

news 2026/7/2 4:18:16

小米开源端到端语音大模型MiMo-Audio：语音AI迈入上下文学习新纪元

【免费下载链接】MiMo-Audio-7B-Instruct项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Instruct

9月19日，科技巨头小米正式对外发布重磅消息，宣布其自主研发的首个原生端到端语音大模型Xiaomi-MiMo-Audio实现开源。该模型突破性地在语音处理领域首次达成基于上下文学习（ICL）的少样本泛化能力，标志着语音人工智能技术向类人智能迈出了关键一步。

回溯人工智能发展历程，五年前GPT-3的横空出世，开创性地展示了通过自回归语言模型架构结合大规模无标注数据训练，能够使AI系统获得卓越的上下文学习能力。然而在语音处理这一重要领域，现有大模型的发展始终面临着严重依赖大规模标注数据的行业痛点，导致模型在适应新任务时表现出明显局限性，难以真正实现接近人类的智能水平。小米此次推出的MiMo-Audio模型，正是针对这一技术瓶颈进行的创新性突破。

据小米官方介绍，Xiaomi-MiMo-Audio模型依托创新的预训练架构设计，并在高达上亿小时的海量语音数据上完成训练优化，不仅在模型的"智商"层面实现提升，更在情感理解、表达能力以及使用安全性等跨模态对齐能力上取得显著进步。尤其在语音交互的自然度、情感色彩的准确传递以及多样化场景的交互适配方面，该模型已展现出令人瞩目的拟人化水准，大幅缩短了语音AI与人类自然交流的差距。

该模型的核心技术创新主要体现在两大方面。首先，MiMo-Audio首次通过实证研究证明，当语音无损压缩预训练的规模扩展至1亿小时级别时，模型能够"涌现"出强大的跨任务泛化能力，具体表现为优异的少样本学习（Few-Shot Learning）性能。这一发现为语音大模型的训练策略提供了全新的思路，打破了以往对标注数据的过度依赖。其次，该模型首次明确界定了语音生成式预训练的目标与定义，并构建了一套完整开源的语音预训练解决方案。这一方案涵盖了具备无损压缩特性的Tokenizer、全新设计的模型结构、高效的训练方法以及科学的评测体系，为整个语音AI行业的发展提供了宝贵的技术参考。

在开源生态建设方面，小米已在Huggingface平台完成该模型预训练版本与指令微调版本的开源工作，同时在Gitcode平台开源了Tokenizer模型（仓库地址：https://gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Instruct）。此次开源的模型参数量达到12亿（1.2B），采用当前主流的Transformer架构，具备强大的音频重建能力和音频转文本处理能力，为开发者社区提供了功能完备、性能优异的技术底座。

Xiaomi-MiMo-Audio模型的开源，不仅彰显了小米在人工智能领域的技术实力与开放姿态，更为语音交互技术的产业化应用开辟了广阔前景。随着该模型的普及应用，未来在智能助手、语音交互设备、无障碍沟通等领域有望催生更多创新产品与服务，推动人机交互体验实现质的飞跃。业内专家表示，小米此次的技术突破和开源举措，将加速语音AI技术的标准化与产业化进程，为整个行业的发展注入强劲动力。

【免费下载链接】MiMo-Audio-7B-Instruct项目地址: https://ai.gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Instruct

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.cnnetsun.cn/news/28723.html