当前位置: 首页 > news >正文

我要搞个ai程序操控鼠标,截取屏幕,识别刀路,给ai一个刀路寻找规则的prompt,然后ai自己去按规则顺序点亮刀路

要实现一个 AI 程序,能够操控鼠标、截取屏幕、识别刀路(CNC 加工路径)、根据规则顺序点亮刀路,这实际上是一个典型的“视觉-语言-动作”闭环系统。该系统融合了图像识别、多模态大模型推理、以及自动化控制三大模块。下面我将从整体架构、关键技术选型、核心 Prompt 设计、以及具体实现建议四个方面进行详细说明。


一、整体系统架构

整个系统可划分为以下四个层级:

  1. 屏幕捕获层:使用pyautogui.screenshot()OpenCV+mss实时截图;
  2. 图像理解层:利用多模态大模型(如 Qwen3-VL-30B)对截图中的刀路图进行语义解析;
  3. 规则推理层:通过精心设计的 Prompt 引导 AI 按照加工逻辑(如“先外轮廓后内腔”、“由粗到精”等)生成刀路执行序列;
  4. 动作执行层:使用pyautogui控制鼠标依次点击/高亮刀路节点。

此架构与文献

12

中提到的“让工业图纸开口说话”的思路高度一致——不是简单 OCR 提取线条,而是让 AI “理解”刀路背后的工艺意图。

二、关键技术选型建议

1. 屏幕截图与预处理

  • 使用mss库高效截屏(比pyautogui更快);
  • 若刀路图来自 CAM 软件(如 Mastercam、UG),可直接导出为高清 PNG/PDF,避免屏幕反光或 UI 干扰;
  • 可加入超分辨率(如 Real-ESRGAN)提升老旧图纸清晰度

    12

2. 刀路识别模型

  • 首选 Qwen3-VL-30B:支持高分辨率输入,能理解 CAD 图纸中的几何关系、标注、图层语义

    12

  • 替代方案:若无 API 权限,可用开源模型如DonutPix2Struct微调刀路识别任务;
  • 不推荐纯 OCR + 规则引擎:无法处理手绘草图、模糊扫描件或多图层叠加场景

    12

3. 鼠标控制

  • 使用pyautogui实现点击、移动、拖拽;
  • 若需更高精度(如亚像素定位),可结合 OpenCV 模板匹配二次校准坐标

    1


三、核心 Prompt 设计(刀路寻找规则)

这是整个系统成败的关键。Prompt 必须明确告诉 AI:

  • 什么是刀路(连续的加工轨迹线);
  • 加工优先级规则(工艺知识);
  • 输出格式(结构化坐标序列)。

示例 Prompt(适用于 Qwen3-VL-30B):

text

编辑

你是一位资深 CNC 工艺工程师。请分析这张刀路图(G代码可视化结果或CAM软件截图),并按以下规则生成刀具路径的执行顺序: 【规则】 1. 优先加工外轮廓,再加工内腔; 2. 同一类特征中,先加工大尺寸特征,再加工小尺寸特征; 3. 孔加工按直径从大到小排序; 4. 避免空行程过长,尽量就近连续加工; 5. 若存在多个独立区域,按从左到右、从上到下的阅读顺序处理。 【输出要求】 - 识别所有刀路起点(用红色圆圈标记的位置); - 按上述规则排序,输出一个有序列表; - 每项格式为:{"step": 1, "x": 120.5, "y": 85.2, "type": "outer_contour"} - 坐标单位为像素,原点在图像左上角; - 若无法确定类型,标注为 "unknown"; - 不要解释,只输出 JSON 列表。

这种 Prompt 结构借鉴了

12

中“提问即编程”的思想——通过自然语言注入领域知识,引导模型做专业推理而非简单图像标注。

四、实现流程与代码框架

python

编辑

import pyautogui import mss import requests # 假设 Qwen3-VL-30B 通过 API 调用 import json # 1. 截图 with mss.mss() as sct: screenshot = sct.grab(sct.monitors[1]) screenshot.save("toolpath.png") # 2. 调用 AI 模型 response = requests.post( "https://api.qwen.ai/v1/vl", headers={"Authorization": "Bearer YOUR_KEY"}, files={"image": open("toolpath.png", "rb")}, data={"prompt": YOUR_PROMPT_ABOVE} ) # 3. 解析刀路序列 toolpath_seq = json.loads(response.json()["text"]) # 4. 逐一点亮(模拟点击) for step in toolpath_seq: x, y = step["x"], step["y"] pyautogui.moveTo(x, y, duration=0.2) pyautogui.click() pyautogui.sleep(0.5) # 模拟加工停顿

注意:实际坐标需根据屏幕 DPI 和图像缩放比例进行映射

2


五、进阶优化方向

  1. 动态反馈学习:若 AI 点错位置,人工纠正后将(图像, 正确序列)作为新样本微调模型

    11

  2. 多图联动:同时上传“刀路图 + 工件3D视图”,让 AI 验证路径是否干涉

    12

  3. 安全机制:加入“确认弹窗”防止误操作真实机床(仅用于仿真环境);
  4. 集成 CAM 软件插件:直接读取 .dxf 或 .nc 文件,跳过截图步骤,提升精度。

总结

你提出的“AI 自主点亮刀路”本质上是智能制造中“感知-决策-执行”闭环的微型实现。借助 Qwen3-VL-30B 这类多模态大模型,我们不再需要手动编写复杂的图像处理规则,而是通过自然语言注入工艺知识,让 AI 像老师傅一样“看图识路”。配合pyautogui的自动化控制,即可构建一个低成本、高智能的刀路验证助手。

正如

11

所述:“AI 让设备拥有了火眼金睛和智慧大脑”——你的项目正是这一理念的绝佳实践。
http://www.cnnetsun.cn/news/172909.html

相关文章:

  • JavaScript 数据类型详解:分类、种类、判断方法及深浅差异
  • Excalidraw与Notion集成实践:构建智能笔记系统
  • 永磁同步电机多物理场仿真案例:电磁、谐响应与噪声分析,适合学习
  • gcc-c++-7.3.0 rpm安装方法 Linux麒麟KY10完整步骤
  • Open-AutoGLM迁移学习冷启动难题破解,快速落地NLP任务的密钥方法
  • 开发者福音:Excalidraw支持代码模式直接导出图形
  • 构建以质量为核心的软件开发文化生态
  • 提升生产力:Excalidraw + AI 自动生成系统架构图
  • Open-AutoGLM微调加速实战(稀缺技术文档首次公开)
  • Open-AutoGLM部署性能提升80%的秘密:跨平台适配中的3个致命误区与解决方案
  • Open-AutoGLM本地化部署实战(局域网离线运行全方案)
  • django基于Python的电影票房爬取与可视化系统的设计与实现vue
  • 计算机毕设Java基于智能推荐的车辆交易管理系统 Java技术实现的智能推荐车辆交易管理平台设计 基于Java的车辆交易管理系统与智能推荐功能的融合开发
  • Open-AutoGLM迁移学习应用瓶颈突破(专家级调优策略全公开)
  • 【Open-AutoGLM局域网部署终极指南】:手把手教你从零搭建高效私有化AI推理环境
  • 健身达人微信小程序的设计与实现毕设源码(源码+lw+部署文档+讲解等)
  • Open-AutoGLM如何实现无缝跨平台部署?:99%工程师忽略的5个关键适配步骤
  • 利用docker在windows 11 wsl中安装oracle 12cR2
  • 【Open-AutoGLM预训练模型适配指南】:揭秘高效迁移学习背后的核心技术细节
  • Cesium快速入门30:CMZL动画
  • Excalidraw工业互联网平台架构图实战
  • 重器轻用后,你的笔记资料分散各处,怎么办?
  • 10 个AI论文工具,助继续教育学员轻松完成写作!
  • 显存暴涨问题难追踪?Open-AutoGLM动态资源监控方案来了
  • Open-AutoGLM生产环境崩溃频发,这套自动修复配置让你彻底告别半夜救火
  • Excalidraw在自动驾驶软件模块设计中的实践
  • 基于大数据的热门音乐歌曲采集分析系统爬虫 可视化
  • Excalidraw大数据平台ETL流程可视化
  • 5个策略帮助企业成功实施YashanDB
  • 揭秘YUV:为何人眼被“欺骗”却浑然不觉