当前位置: 首页 > news >正文

DeepSpeed v0.18.3 发布:优化性能与稳定性,增强兼容性与调试体验

DeepSpeed 正式发布了v0.18.3版本,本次更新重点围绕性能优化、调试工具增强、兼容性改进以及优化器与硬件支持拓展展开。该版本包含多个细节更新,进一步提升了分布式训练的稳定性与可扩展性。以下为本次版本的主要更新内容。


一、系统与构建改进

  • 更新 version.txt 文件,确保版本管理一致性。
  • 更新模态持续集成逻辑(modal CI),修复并改进相关流程。
  • 解释并完善 leaf 模块说明,便于用户理解模块功能。
  • 禁用部分 nv-lightning 配置项,优化持续集成测试过程。
  • 使用 PyTorch 工具检测 ninja 构建工具,提高编译检测的可靠性。
  • 信任 Intel 服务器以进行 XPU 测试,增强跨硬件平台的测试安全性。
  • PyTorch 兼容的 backward API,进一步提升与 PyTorch 的接口一致性。
  • 启用 compiled autograd 进行反向传播,提升反向计算性能。

二、优化器与学习率改进

  • Muon 优化器支持独立学习率参数:允许分别设置 “muon_lr” 和 “adam_lr”,以便更灵活地控制优化器的学习率。
  • Muon 优化器动量缓存在 GPU 上,减少主机与设备之间的数据传输,提高训练效率。
  • 低精度主参数/梯度/优化器状态支持,增强在 FP8、FP16 与 BF16 等低精度训练场景下的性能与稳定性。

三、内存与性能优化

  • see_mem_usage 工具改进:确保无论何种情况下都能正确输出内存使用信息。
  • 使调试工具更加健壮,在异常和边界情况下保证运行稳定。
  • Zero Stage 1-2 优化:在未配置时不再固定内存,从而减少不必要的内存占用。
  • 修复在加载模型或 Zero 检查点时 ds_secondary_tensor 可能出现的数据污染问题,提高模型加载与恢复的正确性。
  • 在交换张量为空时跳过 aio wait 操作,进一步提升性能与资源利用效率。

四、测试与数值稳定性改进

  • 改进 ROCm FP8 单元测试:对 FP16 和 BF16 情况放宽容差,以适应更多硬件环境。
  • 放宽低精度计算的限制,增强在 AMD GPU 等环境下的稳定性。

五、功能拓展与社区支持

  • 新增 Qwen2.5 模型至 AutoTP 模型列表,支持更多自动并行模型配置。
  • 更新安全文档(SECURITY.md)指向 GitHub 官方报告渠道,统一安全报告流程。
  • 新增关于 Ray 与 DeepSpeed 联合技术交流会的资讯,促进社区合作与技术传播。

六、监控与性能分析

  • 新增 Wall Clock Timers API,为用户提供更精确的时间统计和性能分析接口,方便评估训练过程中的时间分布与瓶颈。

总结:
DeepSpeed v0.18.3 版本在保持高性能的同时,进一步提升了系统的稳定性、灵活性和兼容性。此次更新特别加强了优化器配置能力、内存管理与调试工具的可靠性,对于使用分布式训练的研究团队和开发者而言,将提供更高效、更可控的深度学习训练体验。

http://www.cnnetsun.cn/news/73627.html

相关文章:

  • 14、XDP 编程:从基础到实践
  • X-TRACK DIY制作全攻略:从零打造个性化GPS自行车码表外壳
  • 火山引擎文档中心上线Qwen-Image-Edit-2509接入指南
  • FLUX.1-dev支持指令微调?多任务学习实践案例分享
  • 6、深入理解Linux USB文件系统:从VFS到usbfs的构建
  • 解决failed to connect to api.anthropic.c错误,转向国产Qwen方案
  • ComfyUI与Cherry Studio协作:打造个性化AI创作空间
  • 终极轨道计算指南:3个实战技巧解析
  • 时区相关的问题,开发如何自测?
  • 城通网盘直链解析神器:三步解锁高速下载新体验
  • 21届智能车赛外延创意:用车载语音指令触发ACE-Step音乐生成
  • 2025年8款AI论文生成器大揭秘,一键极速写超长篇论文,效率提升300%!
  • 还在用留AIGC痕迹的AI写论文?7款免费工具知网维普查重过
  • Wan2.2-T2V-5B模型部署指南:快速搭建你的实时视频生成服务
  • HunyuanVideo-Foley实战教程:使用Git下载并运行视频音效AI
  • 开源不等于免费:ACE-Step商业化路径中GPU算力与Token的定价策略
  • 【直接抄作业】漏洞挖掘典型场景 + 思路(超详细),零基础入门到精通,一篇搞定
  • EasyAdmin8:企业级后台管理系统的完整解决方案
  • VSCode插件助力SD3.5开发:高效调试FP8模型的实用技巧
  • 终极指南:5分钟掌握移动端选择器开发的完整方案
  • Nginx反向代理配置ACE-Step后端服务:保障高并发下的稳定输出
  • 使用MySQL创建数据库数据表等的完整过程
  • FLUX.1-dev模型本地部署教程:从Git Clone到PyTorch安装全流程
  • 从文本到旋律:ACE-Step如何用自然语言生成完整音乐作品
  • 使用HuggingFace镜像网站加速Qwen3-VL-8B模型拉取
  • ComfyUI节点扩展:将Qwen-Image-Edit-2509嵌入图形化界面
  • 城通网盘直链解析:3步实现高速下载的实用指南
  • Qwen3-14B在金融报告自动生成场景的应用实例
  • 实测对比:LLama-Factory与其他微调框架在GPU利用率上的表现差异
  • Editly终极指南:零基础掌握声明式视频编辑