当前位置: 首页 > news >正文

CANN/asc-devkit SIMD矢量比较函数asc_le文档

asc_le

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

产品支持情况

产品是否支持
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品

功能说明

按元素判断src0 <= src1是否成立,若成立则输出结果为1,否则为0。每个元素的比较结果占1个bit。 当结果输出到寄存器中时,可在计算完成后调用asc_get_cmp_mask获取比较结果。

函数原型

  • 高维切分计算

    // 结果输出到寄存器中 __aicore__ inline void asc_le(__ubuf__ half* src0, __ubuf__ half* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride) __aicore__ inline void asc_le(__ubuf__ float* src0, __ubuf__ float* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride) // 结果输出到目标地址中 __aicore__ inline void asc_le(__ubuf__ uint8_t* dst, __ubuf__ half* src0, __ubuf__ half* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride) __aicore__ inline void asc_le(__ubuf__ uint8_t* dst, __ubuf__ float* src0, __ubuf__ float* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride)
  • 同步计算

    // 结果输出到寄存器中 __aicore__ inline void asc_le_sync(__ubuf__ half* src0, __ubuf__ half* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride) __aicore__ inline void asc_le_sync(__ubuf__ float* src0, __ubuf__ float* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride) // 结果输出到目标地址中 __aicore__ inline void asc_le_sync(__ubuf__ uint8_t* dst, __ubuf__ half* src0, __ubuf__ half* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride) __aicore__ inline void asc_le_sync(__ubuf__ uint8_t* dst, __ubuf__ float* src0, __ubuf__ float* src1, uint8_t repeat, uint8_t dst_block_stride, uint8_t src0_block_stride, uint8_t src1_block_stride, uint8_t dst_repeat_stride, uint8_t src0_repeat_stride, uint8_t src1_repeat_stride)

参数说明

参数名输入/输出描述
dst输出目的操作数(矢量)的起始地址。
src0输入源操作数(矢量)的起始地址。
src1输入源操作数(矢量)的起始地址。
repeat输入迭代次数。
dst_block_stride输入目的操作数单次迭代内不同DataBlock间地址步长。
src0_block_stride输入源操作数0单次迭代内不同DataBlock间地址步长。
src1_block_stride输入源操作数1单次迭代内不同DataBlock间地址步长。
dst_repeat_stride输入目的操作数相邻迭代间相同DataBlock的地址步长。
src0_repeat_stride输入源操作数0相邻迭代间相同DataBlock的地址步长。
src1_repeat_stride输入源操作数1相邻迭代间相同DataBlock的地址步长。

返回值说明

流水类型

PIPE_V

约束说明

  • 操作数地址重叠约束请参考通用地址重叠约束。
  • dst、src0、src1的起始地址需要32字节对齐。
  • dst按照小端顺序排序成二进制结果,对应src中相应位置的数据比较结果。
  • 当结果输出到目的地址中时,mask参数不生效。
  • 使用寄存器形式的接口时,需要配合asc_get_cmp_mask获取比较结果。
  • 当结果输出到寄存器中时,固定处理256B的数据,repeat字段不生效。
  • 当结果输出到寄存器中时,若mask某bit位为0,对应输出寄存器的bit位的值不会改变时,最终结果可能会有上一次计算的残留。如果要初始化寄存器,可以调用asc_set_cmp_mask接口。

调用示例

// 输入固定为128个元素 constexpr uint32_t total_length = 128; __ubuf__ uint8_t dst[total_length / 8]; __ubuf__ half src0[total_length]; __ubuf__ half src1[total_length]; uint8_t repeat = 1; uint8_t dst_block_stride = 1; uint8_t src0_block_stride = 1; uint8_t src1_block_stride = 1; uint8_t dst_repeat_stride = 8; uint8_t src0_repeat_stride = 8; uint8_t src1_repeat_stride = 8; …… // 数据搬运及同步操作 // 结果存入寄存器,通过寄存器获取比较结果 asc_le(src0, src1, repeat, dst_block_stride, src0_block_stride, src1_block_stride, dst_repeat_stride, src0_repeat_stride, src1_repeat_stride); …… // 同步操作 asc_get_cmp_mask(dst); // 读取结果 // 结果输出到目标地址中 asc_le(dst, src0, src1, repeat, dst_block_stride, src0_block_stride, src1_block_stride, dst_repeat_stride, src0_repeat_stride, src1_repeat_stride);

【免费下载链接】asc-devkit本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann/asc-devkit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.cnnetsun.cn/news/2773432.html

相关文章:

  • 声纹识别实战代码包:GMM-UBM、i-vector与self-attention模型全实现(含数据处理到比对全流程)
  • 如何在3分钟内获取全网音乐歌词?163MusicLyrics终极指南
  • 电子行业供应商关系管理:四象限模型与实战博弈策略
  • 纯规则驱动的中文文本纠错Python包,无需模型即可修复错字、标点和搭配问题
  • 【2026必藏】6款智能降AIGC平台大曝光,一键把AI检测率精准控到安全区!
  • iPhone17 屏幕光学复原与悟赫德观复盾护景贴深度评测
  • FunClip:AI智能视频剪辑终极指南,三步完成专业级剪辑
  • Altium Designer极坐标栅格:PCB环形布局的参数化精准解决方案
  • TrafficMonitor股票插件:桌面实时投资监控的智能解决方案
  • FreeRTOS 手动移植教程(八):中断管理 —— 优先级、临界区与任务通知
  • 从零开始:SpatialThinker-30B-i1-GGUF完整安装与配置指南
  • PDF补丁丁技术深度解析:5大核心功能与高级编辑实践
  • 【算法分析与设计】第47篇:固定参数与超越NP的算法设计范式
  • 深度解析MegSpot:5个专业技巧掌握跨平台视觉对比工具
  • 抖音下载难题终结者:douyin-downloader批量下载工具完全指南
  • FPGA/CPLD开发工具全解析:从官方IDE到第三方EDA实战指南
  • Tinke终极指南:如何免费快速掌握NDS游戏资源编辑的完整解决方案
  • 掌握Nucleus Co-op:让单机游戏变身多人分屏派对的神奇工具
  • 测试ICEF认知操作系统被AI(Kimi k2.6)吸收的完整度并探讨被AI快速完整吸收的机制
  • 5分钟搭建Kodi云端影院:115网盘免下载播放终极指南 [特殊字符]
  • 基于mcu微控制器N32L406芯片的额温枪应用方案
  • BepInEx 6.0架构重构:从签名耗尽困境到高性能IL2CPP解决方案
  • 为什么专业设计师都选择MegSpot?揭秘这款跨平台视觉分析工具的5大核心优势
  • FinBERT-tone模型评估指南:如何准确衡量金融情感分析模型的性能
  • 在Windows上安装安卓应用的轻量级解决方案:APK-Installer完全指南
  • 全网最全!2026AI论文写作工具大盘点(覆盖 99% 毕业论文需求)
  • 星露谷物语农场规划器:如何用可视化工具打造你的完美农场?
  • 为什么92%的AI爱好者配错本地助手?:NVIDIA RTX 4090 vs AMD RX 7900 XTX实测对比+LLM推理延迟阈值警报
  • gh_mirrors/spi/spider:革命性可配置网络爬虫平台,让数据抓取从未如此简单!
  • 终极TrollApps指南:重新定义iOS应用自由的开源革命