当前位置: 首页 > news >正文

能控制计算机桌面的多模态AI agent框架

随着llm的能力越来越强,基于LLM的多模态AI agent框架和桌面工具越来越接近实用。

这里收集这些开源的ai agent框架和桌面助手工具。

pyautogui

pyautogui是一个能够模拟鼠标、键盘等输入操作的 Python 库,可以轻松实现自动化操作。

https://zhuanlan.zhihu.com/p/23356032557

NeoAI

NeoAI无需编写代码,让 AI 用简单的自然语言指令接管你的电脑,支持文件管理、任务自动化、定时操作和跨平台设备控制,并内置安全保护。

https://github.com/TheD0ubleC/NeoAI

OmniParser-V2

通过一句话让DeepSeek LLM控制电脑的框架。

OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

https://github.com/microsoft/OmniParser/tree/master

PC-Agent/MobileAgent

一种能使用LLM控制桌面工作的开源工具。

https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent

https://github.com/X-PLUG/MobileAgent/tree/main

OpenCUA/CUA

一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。具体来说,该框架包括:

  • 一个用于捕获人类使用计算机的演示的注释工具
  • AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
  • 一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

https://arxiv.org/abs/2508.09123

https://github.com/trycua/cua

https://github.com/xlang-ai/OpenCUA

https://zhuanlan.zhihu.com/p/1890889365196109726

Cradle

Cradle 是BAAI‑Agents开源的一款面向通用计算机控制(GCC)的多模态 AI Agent 框架,可以让大型多模态模型,通过截图输入和键鼠输出,像人一样使用各种软件和游戏。

  • 通用目标:支持任意本地软件(如游戏、Office、图像/视频编辑工具)

  • 多模态输入:以截图为输入,支持键盘鼠标操作输出

  • 自主能力:内置“认知反思+技能更新”模块,能不断自我优化

  • 模块化设计:兼顾高可控性和扩展性,轻松适配新环境

https://github.com/BAAI-Agents/Cradle

NeuralAgent

NeuralAgent​ 是一款革命性的桌面AI助手,真正能够在用户桌面上执行操作。

与传统AI对话系统不同,NeuralAgent能够实际控制鼠标、键盘,操作浏览器,填写表单,发送邮件,真正实现"思考即执行"的智能化体验。

https://github.com/mosdehcom/neuralagent

Open-Interpreter

Open-Interpreter是可以联网的 ChatGPT 代码解释器。

https://github.com/OpenInterpreter/open-interpreter

refernece

---

使用Python实现鼠标与键盘自动化操作:从基础到实战应用

https://zhuanlan.zhihu.com/p/23356032557

Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?

https://www.cnblogs.com/xiaohuatongxueai/p/19017467

港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

https://zhuanlan.zhihu.com/p/1939274895700784967

Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公

https://zhuanlan.zhihu.com/p/1890889365196109726

OmniParser V2: Turning Any LLM into a Computer Use Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

http://www.cnnetsun.cn/news/112431.html

相关文章:

  • DeeplxFile终极指南:免费解锁无限制文件翻译的完整教程
  • Iridescent:Day27
  • camera calibration(相机校准)
  • JD-GUI 完全指南:Java 反编译工具的终极使用手册
  • 当模型预测控制遇上方向盘烫手时刻
  • ASMR音频下载完整指南:跨平台工具使用详解
  • 超越异步:如何在Node.js中构建极速数据库应用?
  • Boltz生物分子交互建模:从新手到专家的5个关键步骤
  • HoYo.Gacha专业抽卡分析工具完全使用手册
  • FastMCP高级特性之Composition
  • 安卓手机投屏到电脑的开源软件(scrcpy)
  • 边缘计算开源项目终极指南:让物联网设备秒变智能终端
  • ForensicsTool取证工具完整安装配置指南:快速掌握电子数据取证技能
  • DeepSeek-V3 KV缓存技术:让AI对话像翻书一样流畅
  • SpringBoot进阶教程(八十八)获取图片的宽高
  • PeachPie 1.1.13 发布支持最新PHP 8.5.0
  • 电视也可以玩街机经典游戏,你的客厅,早就该变成这样了!
  • 掌握3个Mock工具,轻松玩转单元测试
  • AutoGen到Microsoft Agent Framework终极迁移指南:从零开始构建现代化AI代理系统
  • 2008-2024年地级市女性奥运冠军数据
  • 2003-2024年上市公司人工智能采纳程度数据+Stata代码
  • 问了 3 个博士,导师不说,但目前最新论文卡人的已经不是知网查重
  • CST设计:可重构超表面宽带窄带可切换吸收与多波束技术
  • ai智能搜索文献:高效精准的学术资源检索新工具与应用研究
  • 英文文献的高效检索与阅读策略研究
  • 万字长文!Agent及其主流框架终极指南(附对比图),好Agent的标准:自己想、自己干、自己复盘!
  • 打造专属问答社区,开源系统助力内容创业新风口
  • Apache Impala为啥TBDS、华为MRS弃用?为什么不能做到无缝切换平缓迁移
  • 从开发到上线:智能Agent的Docker部署全链路实践(含YAML模板)
  • 智能连接与自动化引擎的全能表单系统,重新定义数据收集与业务流程的协同