当前位置: 首页 > news >正文

Gemma 4携手Arm:优化端侧AI,加速移动应用体验

实时助手功能、无缝通信与深度个性化,已成为全球数十亿智能手机用户的基本需求。在现代智能手机的功耗限制内运行的高性能端侧AI,对于大规模提供即时、智能的用户体验至关重要,也将进一步释放AI的未来潜力。

谷歌发布的Gemma 4加速了端侧AI的持续演进,帮助开发者便捷获取经过优化的性能表现,将日益强大的AI体验直接嵌入用户每天使用的应用程序中。而在全球智能手机规模上实现这些优势,离不开底层计算基础的支撑——在整个Android生态系统中,Arm是贯穿始终的核心架构。

Gemma 4进一步推动端侧AI发展,在提升性能与效率的同时,还扩展了对基于Arm设备上最受关注的多模态应用场景的支持,包括推理、智能体工作流,以及视觉与音频融合的使用场景。凭借跨文本、音频与图像的增强能力、更广泛的语言支持,以及实时辅助体验的基础架构,Gemma 4能够在不增加内存占用的前提下,直接在设备端实现更具响应性与情境感知能力的交互。

在Arm早期工程测试中,SME2技术在运行Gemma 4工作负载方面展现出令人期待的性能提升。针对Gemma 4 E2B(等效20亿参数)模型的初步测试显示,预填充(处理用户输入)环节平均加速5.5倍,解码(生成响应)环节最高提速1.6倍,充分展示了Armv9 CPU创新技术在端侧AI工作负载上的巨大潜力。上述工程测试已涵盖即将推出的谷歌XNNPACK与Arm KleidiAI补丁。

作为这些改进所能带来成果的早期示例,专注无障碍服务、面向盲人及低视力用户的应用程序Envision,评估了一种在本地提供更多服务的端侧方案。过去,Envision的场景解析依赖云端连接。在此次原型测试中,Gemma 4在搭载SME2功能的Arm CPU上本地运行,用户只需拍摄一张照片,即可直接在设备端获取详细的场景描述,无需网络连接,也无需将敏感数据上传至云端。

这些基于Arm CPU的探索实践,彰显了Arm计算平台在灵活性上的广泛优势,以及在CPU与异构计算路径上持续创新的潜力。

这一切带来的结果是:更低的延迟、更强的隐私保护,以及在任何网络环境下都能保持一致的用户体验。从依赖云端到本地推理的转变,对移动应用而言意义深远——它有望降低开发者的基础设施成本,提升用户使用的稳定性,并开辟实时应用的全新场景。

"Envision很高兴能与Arm和谷歌合作,将强大的无障碍体验直接带到智能手机上。在支持SME2的Arm CPU上本地运行Gemma 4等视觉理解模型,为盲人及低视力用户带来了可靠、低延迟的场景描述和视觉问答能力。对我们的用户群体而言,离线使用这些功能具有极其重要的意义,因为这意味着无论身处何处,技术都能正常工作;同时,在设备端完成更多处理也进一步保护了用户隐私。"——Envision首席执行官 Karthik Mahadevan

Envision是Gemma 4与Arm计算平台在移动端规模结合后所能实现成果的早期样本。随着越来越多的开发者接入Gemma 4,端侧AI将逐步从例外走向常态,成为默认的架构选择。

Armv9架构是迄今为止最安全、覆盖最广、最先进的指令集架构。Arm可扩展矩阵扩展2(SME2)是Armv9架构中的一组先进CPU指令集,是其中的关键技术——它能在智能手机的功耗范围内加速矩阵密集型AI工作负载。SME2已内置于最新Android智能手机设备搭载的Arm C1 CPU中,可解锁更高的持续性能并提升能效表现。

通过Arm KleidiAI——Arm的软件加速层,已集成至谷歌XNNPACK等主流运行时库以及谷歌LiteRT、MediaPipe等框架——SME2的优势可被移动开发者直接获取,无需对现有代码、模型或部署流程进行任何修改。因此,开发者只需面向基于SME2的Arm Android设备进行开发,即可自动获得开箱即用的性能优化。

在实际应用中,这些软件层面的提升直接转化为更优质的端侧体验:用户可以享受更快的响应速度、更流畅的持续交互以及更稳定可靠的端侧AI能力,同时还能保持良好的电池续航与热稳定性,即便模型能力持续增强也不例外。

"要在整个Android生态系统中高效部署Gemma 4,需要在硬件与软件层面展开深度协作。我们与Arm的合作体现了双方对推动端侧AI发展的共同承诺——将Armv9架构及SME2等内置加速技术的优势与Android操作系统深度融合,以大规模释放更强的性能与效率。我们携手合作,让开发者更轻松地为用户提供快速、响应灵敏且保护隐私的AI体验,且无需修改现有应用程序。"——谷歌Android工程总监 Sandeep Patil

随着越来越多的应用将AI迁移至设备端,Arm与谷歌致力于为开发者提供便捷的性能优化工具与清晰的指引,帮助Gemma 4加速所有基于Arm移动设备上的应用体验。

移动AI的未来,并非单纯取决于模型体量的增大,而在于模型能否在整个Android生态系统中高效、安全、广泛地大规模运行。通过这一合作,端侧AI的红利将惠及全球数十亿Android智能手机用户。

注:音频功能仅适用于E2B(等效20亿参数)和E4B(等效40亿参数)版本。

Q&A

Q1:Gemma 4在端侧AI方面有哪些性能提升?

A:根据Arm早期工程测试,在搭载SME2技术的设备上运行Gemma 4 E2B模型时,预填充环节平均加速5.5倍,解码环节最高提速1.6倍。这些提升来自Armv9架构中的SME2指令集,并通过Arm KleidiAI软件加速层自动生效,开发者无需修改现有代码或模型即可获得性能优化。

Q2:Arm的SME2技术是什么?它如何帮助Gemma 4运行?

A:SME2(可扩展矩阵扩展2)是Armv9架构中的一组先进CPU指令集,专为在智能手机功耗范围内加速矩阵密集型AI工作负载而设计。它已内置于最新Android手机采用的Arm C1 CPU中。通过Arm KleidiAI软件层与谷歌XNNPACK等运行时库的集成,开发者只需面向支持SME2的Arm设备开发,即可自动获得Gemma 4的性能优化,无需额外改动代码。

Q3:Gemma 4端侧运行对用户隐私有什么好处?

A:Gemma 4在设备端本地运行意味着用户数据无需上传至云端进行处理,有效降低了隐私泄露风险。以Envision应用为例,用户拍照后可直接在设备上获取场景描述,敏感图像数据不会离开本地设备。此外,本地推理还消除了对网络连接的依赖,即使在离线状态下也能正常使用,进一步提升了用户体验的稳定性与可靠性。

http://www.cnnetsun.cn/news/2675967.html

相关文章:

  • Yuzu模拟器终极优化指南:5步让你的Switch游戏在PC上流畅运行
  • Buzz:完全离线音频转录工具,保护隐私的智能选择
  • 如何快速实现网易云音乐NCM格式转换:终极解密工具指南
  • 【LLM 落地实战】大模型微调下半场:如何用 Python 将 100 篇 PDF 文档自动清洗为微调“黄金数据集”
  • Windows下Labelme安装踩坑实录:从onnxruntime版本冲突到whl文件手动安装的完整解决方案
  • 为什么87%的出海企业Gemini API调用被拦截?揭秘HTTP Header中缺失的3个X-Forwarded-*关键标头
  • 如何高效永久保存微信聊天记录:WeChatMsg一站式数据备份解决方案
  • 基于Arduino的植物环境监测系统:从传感器到执行器的嵌入式开发实践
  • Arduino实现Profibus-DP主站控制Festo气动阀岛全解析
  • 基于Arduino与3D打印的化学元素时钟:混合显示与步进电机控制实践
  • 如何快速掌握甲言:古汉语NLP处理的完整指南
  • Video2X完整指南:三步实现AI视频画质增强与帧率提升
  • AMD Ryzen硬件调试终极指南:3步快速上手SMUDebugTool深度调优
  • 深度解析:OpCore Simplify如何通过智能配置工具提升黑苹果兼容性与稳定性
  • 3分钟掌握Simple Live:你的跨平台直播聚合神器
  • 三步解决电子课本下载难题:国家中小学智慧教育平台PDF下载终极指南
  • 【Gemini产品退役终极指南】:20年Google生态专家亲授迁移避坑清单与替代方案速查表
  • 基于Arduino与蓝牙的智能灌溉系统:从硬件选型到代码实现全解析
  • LinkSwift网盘直链下载助手:八大主流网盘高速下载终极指南
  • PHP遇到报错,不只搜解决方案,要看 堆栈跟踪,读 源码。
  • 如何用TripoSR在0.5秒内完成高质量3D建模?终极快速单图像3D重建完全指南
  • 5种声音魔法配方:解锁ChatTTS隐藏的语音合成潜力
  • MobileNet-SSD目标检测模型:如何在3分钟内实现高效物体识别?
  • 如何永久免费使用IDM:3分钟解锁无限下载加速的神奇方法
  • ESP32显示驱动实战指南:3种高效控制方法与50%性能提升技巧
  • 收藏!小白程序员必备:AI大模型风口红利,高薪岗位申请指南!
  • 结构化输出与约束解码技术深度解析:从 JSON Schema 到受控文本生成的完整方法论
  • Python梯度提升树
  • YimMenu终极指南:GTA5最强免费防崩溃辅助工具完全教程
  • LLM驱动模拟电路识别:GENIE-ASI技术解析与应用