当前位置：首页 > news >正文

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

news 2026/5/31 15:44:22

实时助手功能、无缝通信与深度个性化，已成为全球数十亿智能手机用户的基本需求。在现代智能手机的功耗限制内运行的高性能端侧AI，对于大规模提供即时、智能的用户体验至关重要，也将进一步释放AI的未来潜力。

谷歌发布的Gemma 4加速了端侧AI的持续演进，帮助开发者便捷获取经过优化的性能表现，将日益强大的AI体验直接嵌入用户每天使用的应用程序中。而在全球智能手机规模上实现这些优势，离不开底层计算基础的支撑——在整个Android生态系统中，Arm是贯穿始终的核心架构。

Gemma 4进一步推动端侧AI发展，在提升性能与效率的同时，还扩展了对基于Arm设备上最受关注的多模态应用场景的支持，包括推理、智能体工作流，以及视觉与音频融合的使用场景。凭借跨文本、音频与图像的增强能力、更广泛的语言支持，以及实时辅助体验的基础架构，Gemma 4能够在不增加内存占用的前提下，直接在设备端实现更具响应性与情境感知能力的交互。

在Arm早期工程测试中，SME2技术在运行Gemma 4工作负载方面展现出令人期待的性能提升。针对Gemma 4 E2B（等效20亿参数）模型的初步测试显示，预填充（处理用户输入）环节平均加速5.5倍，解码（生成响应）环节最高提速1.6倍，充分展示了Armv9 CPU创新技术在端侧AI工作负载上的巨大潜力。上述工程测试已涵盖即将推出的谷歌XNNPACK与Arm KleidiAI补丁。

作为这些改进所能带来成果的早期示例，专注无障碍服务、面向盲人及低视力用户的应用程序Envision，评估了一种在本地提供更多服务的端侧方案。过去，Envision的场景解析依赖云端连接。在此次原型测试中，Gemma 4在搭载SME2功能的Arm CPU上本地运行，用户只需拍摄一张照片，即可直接在设备端获取详细的场景描述，无需网络连接，也无需将敏感数据上传至云端。

这些基于Arm CPU的探索实践，彰显了Arm计算平台在灵活性上的广泛优势，以及在CPU与异构计算路径上持续创新的潜力。

这一切带来的结果是：更低的延迟、更强的隐私保护，以及在任何网络环境下都能保持一致的用户体验。从依赖云端到本地推理的转变，对移动应用而言意义深远——它有望降低开发者的基础设施成本，提升用户使用的稳定性，并开辟实时应用的全新场景。

"Envision很高兴能与Arm和谷歌合作，将强大的无障碍体验直接带到智能手机上。在支持SME2的Arm CPU上本地运行Gemma 4等视觉理解模型，为盲人及低视力用户带来了可靠、低延迟的场景描述和视觉问答能力。对我们的用户群体而言，离线使用这些功能具有极其重要的意义，因为这意味着无论身处何处，技术都能正常工作；同时，在设备端完成更多处理也进一步保护了用户隐私。"——Envision首席执行官 Karthik Mahadevan

Envision是Gemma 4与Arm计算平台在移动端规模结合后所能实现成果的早期样本。随着越来越多的开发者接入Gemma 4，端侧AI将逐步从例外走向常态，成为默认的架构选择。

Armv9架构是迄今为止最安全、覆盖最广、最先进的指令集架构。Arm可扩展矩阵扩展2（SME2）是Armv9架构中的一组先进CPU指令集，是其中的关键技术——它能在智能手机的功耗范围内加速矩阵密集型AI工作负载。SME2已内置于最新Android智能手机设备搭载的Arm C1 CPU中，可解锁更高的持续性能并提升能效表现。

通过Arm KleidiAI——Arm的软件加速层，已集成至谷歌XNNPACK等主流运行时库以及谷歌LiteRT、MediaPipe等框架——SME2的优势可被移动开发者直接获取，无需对现有代码、模型或部署流程进行任何修改。因此，开发者只需面向基于SME2的Arm Android设备进行开发，即可自动获得开箱即用的性能优化。

在实际应用中，这些软件层面的提升直接转化为更优质的端侧体验：用户可以享受更快的响应速度、更流畅的持续交互以及更稳定可靠的端侧AI能力，同时还能保持良好的电池续航与热稳定性，即便模型能力持续增强也不例外。

"要在整个Android生态系统中高效部署Gemma 4，需要在硬件与软件层面展开深度协作。我们与Arm的合作体现了双方对推动端侧AI发展的共同承诺——将Armv9架构及SME2等内置加速技术的优势与Android操作系统深度融合，以大规模释放更强的性能与效率。我们携手合作，让开发者更轻松地为用户提供快速、响应灵敏且保护隐私的AI体验，且无需修改现有应用程序。"——谷歌Android工程总监 Sandeep Patil

随着越来越多的应用将AI迁移至设备端，Arm与谷歌致力于为开发者提供便捷的性能优化工具与清晰的指引，帮助Gemma 4加速所有基于Arm移动设备上的应用体验。

移动AI的未来，并非单纯取决于模型体量的增大，而在于模型能否在整个Android生态系统中高效、安全、广泛地大规模运行。通过这一合作，端侧AI的红利将惠及全球数十亿Android智能手机用户。

注：音频功能仅适用于E2B（等效20亿参数）和E4B（等效40亿参数）版本。

Q&A

Q1：Gemma 4在端侧AI方面有哪些性能提升？

A：根据Arm早期工程测试，在搭载SME2技术的设备上运行Gemma 4 E2B模型时，预填充环节平均加速5.5倍，解码环节最高提速1.6倍。这些提升来自Armv9架构中的SME2指令集，并通过Arm KleidiAI软件加速层自动生效，开发者无需修改现有代码或模型即可获得性能优化。

Q2：Arm的SME2技术是什么？它如何帮助Gemma 4运行？

A：SME2（可扩展矩阵扩展2）是Armv9架构中的一组先进CPU指令集，专为在智能手机功耗范围内加速矩阵密集型AI工作负载而设计。它已内置于最新Android手机采用的Arm C1 CPU中。通过Arm KleidiAI软件层与谷歌XNNPACK等运行时库的集成，开发者只需面向支持SME2的Arm设备开发，即可自动获得Gemma 4的性能优化，无需额外改动代码。

Q3：Gemma 4端侧运行对用户隐私有什么好处？

A：Gemma 4在设备端本地运行意味着用户数据无需上传至云端进行处理，有效降低了隐私泄露风险。以Envision应用为例，用户拍照后可直接在设备上获取场景描述，敏感图像数据不会离开本地设备。此外，本地推理还消除了对网络连接的依赖，即使在离线状态下也能正常使用，进一步提升了用户体验的稳定性与可靠性。

查看全文

http://www.cnnetsun.cn/news/2675967.html