【RT-DETR实战】RT-DETR实战手记(200):端侧实时目标检测,下一步往哪儿走?
昨天深夜调一个模型部署,在树莓派4B上跑RT-DETR-nano,帧率死活卡在8FPS上不去。量化也做了,算子也优化了,内存对齐也检查了,可就是离实时检测的底线还差一截。
盯着终端里跳动的数字,突然意识到——我们可能正在接近当前技术路径的瓶颈。端侧实时目标检测的下一个突破口,恐怕不在现有框架的修修补补里。
模型小型化的路子快走到头了
这几年大家玩命压缩模型,剪枝、蒸馏、量化三板斧轮着上。RT-DETR本身已经是这条路径的集大成者,但问题开始浮现:
# 典型的量化部署代码,现在看有点力不从心了model=torch.quantization.quantize_dynamic(model,{torch.nn.Linear}