当前位置: 首页 > news >正文

HLS用于应用加速


一、why FPGA
1.FPGA可以自定义数据类型
2.FPGA可以自定义数据路径,dataflow or pipeline
3.有效的memory访问,可以random access,FIFO,stack
4.parallelism并行化没有限制

二、FPGA开发趋于简单化
1.可以使用c/c++/system c,opencl,python来开发FPGA
2.tenssorflow

三、HLS代码结构
1.top-level函数定义
2.interface接口定义
3.dataflow the processing
4.internal streaming variable变量声明
5.synchronize to start of frame帧同步开始
6.covert from axi stream to xf::Mat

四、HLS让FPGA开发变得简单

五、并行化
并行化有两种
1.data-level parallesim
2.task-level parallelism
3.Instruction(operator) level parallelsim
在HLS设计中需要考虑的data-level和task-level的并行化,
不需要考虑指令或者操作的并行化,指令和操作的并行化是HLS帮我们做了。

六、CPU和FPGA
1.cpu使用得地址空间都是虚拟的地址空间
2.FPGA使用的地址空间都是physical address space

七、组合逻辑 + 时序逻辑模型设计

1.单个组合逻辑+时序逻辑设计模型


void comb_sequential_top
(
ap_uint<32> in1,
ap_uint<32> in2,
ap_uint<32> *out
){
#pragma HLS INTERFACE ap_ctrl_none port=return
#pragma HLS INTERFACE ap_none port=in1
#pragma HLS INTERFACE ap_none port=in2
#pragma HLS INTERFACE ap_none port=out
static int L;//flip-flop

*out = in1 * L;//read current-L
L = in2 + L;//assign next-L
}

2.多个组合逻辑+时序逻辑模型

void sub1_func(
ap_uint<32> in1,
ap_uint<32> in2,
ap_uint<32> *out
){
#pragma HLS INLINE off
static int L;//flip-flop

*out = in1 * L;//read current-L
L = in2 + L;//assign next-L
}

void sub2_func(
ap_uint<32> in1,
ap_uint<32> in2,
ap_uint<32> *out
){
#pragma HLS INLINE off
static int L;//flip-flop

*out = in1 * L;//read current-L
L = in2 + L;//assign next-L
}


void comb_sequential_top
(
ap_uint<32> in1,
ap_uint<32> *out
){
#pragma HLS INTERFACE ap_ctrl_none port=return
#pragma HLS INTERFACE ap_none port=in1
#pragma HLS INTERFACE ap_none port=out

ap_uint<32> tmp1;
ap_uint<32> tmp2;

sub1_func(in1,tmp2,&tmp1);

sub2_func(tmp1,tmp1,&tmp2);

*out = tmp2;

}

上述这个代码综合设计,发现综合的rtl代码,并没有实现两次组合逻辑+时序逻辑模块,为什么??

template<int N>
void sub1_func(
ap_uint<32> in1,
ap_uint<32> in2,
ap_uint<32> *out
){
#pragma HLS INLINE off
static int L;//flip-flop

*out = in1 * L;//read current-L
L = in2 + L;//assign next-L
}

template<int N>
void sub2_func(
ap_uint<32> in1,
ap_uint<32> in2,
ap_uint<32> *out
){
#pragma HLS INLINE off
static int L;//flip-flop

*out = in1 * L;//read current-L
L = in2 + L;//assign next-L
}


void comb_sequential_top
(
ap_uint<32> in1,
ap_uint<32> *out
){
#pragma HLS INTERFACE ap_ctrl_none port=return
#pragma HLS INTERFACE ap_none port=in1
#pragma HLS INTERFACE ap_none port=out

ap_uint<32> tmp1;
ap_uint<32> tmp2;

sub1_func<1>(in1,tmp2,&tmp1);

sub1_func<2>(tmp1,tmp1,&tmp2);

*out = tmp2;

}
使用模板函数好像实现的功能也不太对!!!

这个后续专门对这块设计进行说明!!!

3.two-module

void comb_sequential_top
(
ap_uint<32> in1,
ap_uint<32> *out
){
#pragma HLS INTERFACE ap_ctrl_none port=return
#pragma HLS INTERFACE ap_none port=in1
#pragma HLS INTERFACE ap_none port=out

ap_uint<32> tmp1;
ap_uint<32> tmp2;

sub1_func(in1,in1,&tmp1);

sub1_func(tmp1,tmp1,&tmp2);

*out = tmp2;

}

http://www.cnnetsun.cn/news/172936.html

相关文章:

  • 从入门到精通:Open-AutoGLM账号权限管理的8个必知功能模块
  • 我要搞个ai程序操控鼠标,截取屏幕,识别刀路,给ai一个刀路寻找规则的prompt,然后ai自己去按规则顺序点亮刀路
  • JavaScript 数据类型详解:分类、种类、判断方法及深浅差异
  • Excalidraw与Notion集成实践:构建智能笔记系统
  • 永磁同步电机多物理场仿真案例:电磁、谐响应与噪声分析,适合学习
  • gcc-c++-7.3.0 rpm安装方法 Linux麒麟KY10完整步骤
  • Open-AutoGLM迁移学习冷启动难题破解,快速落地NLP任务的密钥方法
  • 开发者福音:Excalidraw支持代码模式直接导出图形
  • 构建以质量为核心的软件开发文化生态
  • 提升生产力:Excalidraw + AI 自动生成系统架构图
  • Open-AutoGLM微调加速实战(稀缺技术文档首次公开)
  • Open-AutoGLM部署性能提升80%的秘密:跨平台适配中的3个致命误区与解决方案
  • Open-AutoGLM本地化部署实战(局域网离线运行全方案)
  • django基于Python的电影票房爬取与可视化系统的设计与实现vue
  • 计算机毕设Java基于智能推荐的车辆交易管理系统 Java技术实现的智能推荐车辆交易管理平台设计 基于Java的车辆交易管理系统与智能推荐功能的融合开发
  • Open-AutoGLM迁移学习应用瓶颈突破(专家级调优策略全公开)
  • 【Open-AutoGLM局域网部署终极指南】:手把手教你从零搭建高效私有化AI推理环境
  • 健身达人微信小程序的设计与实现毕设源码(源码+lw+部署文档+讲解等)
  • Open-AutoGLM如何实现无缝跨平台部署?:99%工程师忽略的5个关键适配步骤
  • 利用docker在windows 11 wsl中安装oracle 12cR2
  • 【Open-AutoGLM预训练模型适配指南】:揭秘高效迁移学习背后的核心技术细节
  • Cesium快速入门30:CMZL动画
  • Excalidraw工业互联网平台架构图实战
  • 重器轻用后,你的笔记资料分散各处,怎么办?
  • 10 个AI论文工具,助继续教育学员轻松完成写作!
  • 显存暴涨问题难追踪?Open-AutoGLM动态资源监控方案来了
  • Open-AutoGLM生产环境崩溃频发,这套自动修复配置让你彻底告别半夜救火
  • Excalidraw在自动驾驶软件模块设计中的实践
  • 基于大数据的热门音乐歌曲采集分析系统爬虫 可视化
  • Excalidraw大数据平台ETL流程可视化