当前位置: 首页 > news >正文

CANN/ops-nn分组量化SwiGLU激活算子

SwigluGroupQuant

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

产品支持情况

产品是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品×
Atlas A2 训练系列产品/Atlas A2 推理系列产品×
Atlas 200I/500 A2 推理产品×
Atlas 推理系列产品×
Atlas 训练系列产品×

功能说明

  • 算子功能:融合实现SwiGLU激活和分组低比特量化,支持FP8和FP4输出。输入x的最后一维被均分为AB,先计算silu(A) * B,再执行量化。

  • 计算公式:

    $$ y_{tmp}=silu(A) \times B $$

    当传入clamp_limit时:

    $$ A=min(A, clamp_limit) $$

    $$ B=min(max(B, -clamp_limit), clamp_limit) $$

    当传入weight时,量化前执行:

    $$ y_{tmp}=y_{tmp} \times weight $$

    进行量化:

    $$ scale=row_max(abs(y_{tmp}))/dstTypeScale $$

    $$ y = Cast(Mul(y_{tmp}, 1/scale)) $$

    quant_mode为0时输出FP8类型的y和FLOAT32类型的y_scale;quant_mode为1时输出FP8/FP4类型的y和FLOAT8_E8M0类型的y_scale;quant_mode为2、3时输出HIFP8类型的y和FLOAT32类型的y_scale。

参数说明

参数名输入/输出/属性描述数据类型数据格式
x输入输入张量,shape为[...,D],最后一维D按左右两半做SwiGLU。FLOAT、FLOAT16、BFLOAT16ND
weight可选输入量化前按token乘到SwiGLU输出上的权重。FLOAT32ND
group_index可选输入count模式的group token数。INT64ND
scale可选输入静态量化输入的scale张量。仅quant_mode=2时使用,quant_mode=3时不使用。FLOAT32ND
dst_type属性目标量化类型:27=HIFLOAT8,35=FLOAT8_E5M2,36=FLOAT8_E4M3FN,40=FLOAT4_E2M1,41=FLOAT4_E1M2。INT64-
quant_mode属性量化模式。0表示Block FP8,1表示MX,2表示HIFP8静态量化,3表示HIFP8动态量化。INT64-
block_size属性量化块大小。0表示使用默认值;Block FP8支持128,MX支持32;quant_mode=2或3时不生效。INT64-
round_scale属性是否将scale取整为2的幂。MX模式必须为true;quant_mode=2或3时不生效。BOOL-
clamp_limit属性SwiGLU计算前的clamp阈值。默认不启用clamp。FLOAT-
dst_type_max属性目标量化类型的最大有限值。quant_mode=2或3时用于计算scale = amax / dst_type_max,默认值为15.0。FLOAT-
output_origin属性是否输出量化前的SwiGLU结果。MX FP4模式下该输出仅作占位。BOOL-
y输出量化输出。FP8 shape为[...,D/2];FP4每字节打包2个4-bit值,shape为[...,D/4];HIFP8 shape为[...,D/2]。HIFLOAT8、FLOAT8_E4M3FN、FLOAT8_E5M2、FLOAT4_E2M1、FLOAT4_E1M2ND
y_scale输出量化scale。Block FP8输出FLOAT32,shape为[...,ceil((D/2)/128)];MX输出FLOAT8_E8M0,shape为[...,ceil(ceil((D/2)/32)/2),2];HIFP8输出FLOAT32,无group_index时shape为[1],有group_index时shape为[G]。FLOAT32、FLOAT8_E8M0ND
y_origin输出量化前的SwiGLU结果,shape为[...,D/2]。与x相同ND

约束说明

  • 输入x的rank必须大于0,最后一维D必须大于等于256且能被256整除。
  • dst_type支持HIFLOAT8FLOAT8_E4M3FNFLOAT8_E5M2FLOAT4_E2M1FLOAT4_E1M2
  • quant_mode=0时仅支持FP8输出,block_size支持0或128。
  • quant_mode=1时支持FP8/FP4输出,block_size支持0或32,round_scale必须为true。
  • quant_mode=2时支持HIFP8静态量化输出,dst_typeblock_sizeround_scale不生效。
  • quant_mode=3时支持HIFP8动态量化输出,dst_typeblock_sizeround_scale不生效。
  • dst_typeFLOAT4_E2M1FLOAT4_E1M2时,必须使用quant_mode=1
  • dst_typeHIFLOAT8时,必须使用quant_mode=23
  • y_scale的数据类型必须与quant_mode匹配:Block FP8为FLOAT32,MX为FLOAT8_E8M0,HIFP8为FLOAT32。
  • quant_mode=23时,group_index可用于MoE场景的分组量化,y_scale的shape为[G](G为group数量)。
  • clamp_limit不启用时使用默认占位值-1.0;启用时必须大于0。

调用说明

调用方式调用样例说明
aclnn调用test_aclnn_swiglu_group_quant通过aclnnSwigluGroupQuant接口调用SwigluGroupQuant算子。
图模式调用-通过算子IR构图方式调用SwigluGroupQuant算子。

【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.cnnetsun.cn/news/3130666.html

相关文章:

  • Statsig Status Page最佳实践:企业级状态监控配置
  • 终极指南:如何使用Gradle Docker插件实现与Kubernetes的无缝集成
  • SENet-Tensorflow实战教程:在CIFAR-10数据集上训练ResNeXt模型
  • CTF-NetA 2.9.3:自动化网络流量分析利器,一键解密USB与Webshell流量
  • CANN/asc-devkit GlobalTensor GetValue API
  • IGBT结温估算技术:原理、优化与实践
  • Packtpub-crawler通知系统详解:邮件、IFTTT、Pushover多平台提醒设置指南
  • 提高代码质量系列之三:我是怎么设计函数的?
  • Typical架构解析:从Schema到代码生成的完整工作流
  • nwpu-cram之量子通信:原理与协议终极指南
  • CANN白盒设计网络搜索
  • CANN/asc-devkit GlobalTensor GetSize函数
  • autopprof实战教程:10个技巧快速定位Go性能瓶颈
  • CANN / cannbot-skills:分册5性能评估与精度对比
  • jinjava与HubSpot CMS集成:大规模应用的实际案例分析
  • ContEx高级技巧:自定义CSS样式和图表主题定制指南
  • 3分钟掌握gInk:Windows上最高效的免费屏幕标注工具完全指南
  • 解密Vue3DraggableResizable实现原理:拖拽与缩放的底层逻辑
  • PCB金手指故障预判与延寿技术解析
  • kube-prod-runtime核心组件解析:日志、监控与Ingress三大支柱
  • Juggl工作空间模式深度解析:如何高效管理你的知识网络
  • Frozen API深度解析:json_scanf和json_printf的10个实用技巧
  • 如何通过GTA5线上小助手实现游戏参数深度定制:完整技术指南
  • BlueHound:终极网络安全防御工具 - 如何快速发现攻击路径并保护企业网络
  • 自动驾驶笔记:端到端自动驾驶系统的架构设计与实现指南
  • 如何快速上手Windmill React UI?新手必备的完整指南
  • Claude API 接入工作流系统的完整架构与集成方案
  • 归藏提示词库专业技巧:天气移轴Q版模型的完整创作流程
  • 感应电机无速度传感器FOC控制原理与Simulink仿真实践
  • 从0开始学习HookLib²:C语言函数拦截开发入门