当前位置: 首页 > news >正文

昇腾C FMA临时缓冲区因子大小接口

GetFmaTmpBufferFactorSize

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

功能说明

该接口用于获取maxLivedNodeCount和extraBuf,在固定空间大小的情况下,通过maxLivedNodeCount和extraBuf可以推算算子单次最大计算元素数量。maxLivedNodeCount表示临时空间是单次计算数据量所占空间的多少倍;extraBuf表示使用的额外临时空间大小。

推算示例如下:

  • 算子实现需要调用Fma接口,开发者为其预留currBuff大小的空间,利用GetFmaTmpBufferFactorSize接口得到maxLivedNodeCount、extraBuf输出值,可推导算子单次最大计算元素数量为:

    currentShapeSize = (currBuff - extraBuf) / maxLivedNodeCount / typeSize

  • 算子实现需要调用两个kernel侧API KernelIntf1、KernelIntf2,利用两个GetXxxTmpBufferFactorSize(其中Xxx为需要调用的两个高阶API)接口的两组输出值(maxLivedNodeCount、extraBuf)以及当前现有的临时空间,推导单次最大计算元素数量currentShapeSize为:

    currentShapeSize1 = (currBuff - extraBuf1) / maxLivedNodeCount1 / typeSize

    currentShapeSize2 = (currBuff - extraBuf2) / maxLivedNodeCount2 / typeSize

    currentShapeSize = min(currentShapeSize1, currentShapeSize2)

注意上文中的currBuff表示接口计算可用的空间,需要去除用户输入输出等空间;另外,接口获取的maxLivedNodeCount值可能为0,计算时需要判断该值非0,避免除零错误。

函数原型

void GetFmaTmpBufferFactorSize(const platform_ascendc::PlatformAscendC& ascendcPlatform, const uint32_t typeSize, uint32_t& maxLivedNodeCount, uint32_t& extraBuf)

参数说明

表 1参数列表

参数名

输入/输出

功能

ascendcPlatform

输入

输入的平台信息。PlatformAscendC的定义请参见构造及析构函数。

typeSize

输入

输入的数据类型大小,单位为字节。比如输入的数据类型为half,此处应传入2。

maxLivedNodeCount

输出

最大存活节点数,表示临时空间是单次计算数据量所占空间的多少倍。

extraBuf

输出

使用的额外临时空间大小,单位为字节。

返回值说明

约束说明

当利用maxLivedNodeCount、extraBuf反推出的currentShapeSize * typeSize < 256B时,currentShapeSize按照256B/typeSize的值向上取整。

调用示例

完整的调用样例请参考更多样例。

uint32_t maxLivedNodeCount = 0; uint32_t extraBuf = 0; auto plat = platform_ascendc::PlatformAscendC(context->GetPlatformInfo()); AscendC::GetFmaTmpBufferFactorSize(plat, typeSize, maxLivedNodeCount, extraBuf);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.cnnetsun.cn/news/2470887.html

相关文章:

  • RTL8812AU无线网卡驱动:Linux用户必须掌握的5个关键技巧
  • WindowResizer:打破Windows窗口尺寸限制的专业工具,让每个应用都适配你的工作流
  • 实用汽车CAN总线解码:opendbc项目如何高效解决汽车数据解析难题
  • Arch-Hyprland架构深度解析:现代Linux桌面环境的创新实践
  • 如何用MangaOCR免费解锁日语漫画阅读:终极指南
  • 5大实战技巧:快速掌握猫抓浏览器资源嗅探终极指南
  • 华为上线 Oracle EBS 完整时间线(严谨考证版)
  • 谷歌与三星智能眼镜秋季将发布,多种款式功能亮眼,能否超越 Meta 雷朋系列?
  • ComfyUI-Impact-Pack V8:终极AI图像增强与语义分割完整指南
  • 新手开发者首次在Taotoken模型广场选型与试用的全过程记录
  • 2025 FunASR技术峰会:探索语音AI前沿的终极指南
  • 喜马拉雅音频下载终极指南:零基础掌握Qt5跨平台下载器
  • 从CARIS 9到11.4:老用户快速上手指南,重点看Georeference Bathymetry这个新核心
  • CANN/asc-devkit SIMD API UnPack函数
  • 终极Windows窗口管理神器workspacer:告别混乱桌面的10个高效技巧
  • Speakeasy深度解析:从零开始构建Windows内核模式仿真环境
  • AI写专著超强指南:选对AI专著写作工具,3天完成20万字专著!
  • 嵌入式Bootloader安全机制:从数字签名到安全启动的实战设计
  • 2026年5月最新乌鸫科技面经:低代码主子表、RBAC、统一支付接口设计都问到了
  • VSCode里Code Runner跑Python总报9009?别慌,检查一下你的setting.json文件
  • 天下工厂的数据准不准?数据从哪来
  • mat-chem-sim-pred开发者指南:如何贡献新的科学计算算子
  • 三步搞定Windows和Office永久激活:KMS_VL_ALL_AIO智能激活全攻略
  • 保姆级教程:用闲置服务器自建ZeroTier Planet根服务器,打通安卓/iOS/Mac/路由器/群晖全平台内网穿透
  • 别再手动改配置了!用FastAPI + python-dotenv实现多环境(开发/测试/生产)一键切换
  • Qt C++ 集成 SQLite 实现本地数据持久化:从原理到宠物投喂器实战
  • 5分钟快速上手:京东自动抢购神器终极指南
  • 告别手动打字!PowerToys文本提取器如何用3分钟改变你的工作流
  • FanControl风扇控制终极指南:5分钟实现Windows智能散热管理
  • 5步掌握MaxBot:从零开始的抢票机器人实战指南