当前位置: 首页 > news >正文

如何用Open-AutoGLM解决重复性手机操作?答案在这

如何用Open-AutoGLM解决重复性手机操作?答案在这

你有没有过这样的经历:每天早上固定时间打开健康App打卡;每周五下午三点准时在企业微信里提交周报;每次下单前都要反复比价三款外卖App的满减规则;甚至只是想给某个小红书博主点个关注,却要在抖音、小红书、微博三个平台来回切换、手动搜索、点击、确认……这些不是工作难点,却是实实在在的时间黑洞。

更让人无奈的是——它们无法被传统自动化工具覆盖。宏录制不识别界面变化,脚本写到一半发现APP更新了布局,而“点击坐标”方案在不同分辨率手机上直接失效。直到Open-AutoGLM出现,事情开始不一样了。

这不是又一个需要写代码、调参数、配环境的AI玩具。它是一套真正面向“人”的手机智能助理框架:你用大白话说话,它看懂屏幕、理解意图、自己动手。今天这篇文章,不讲原理、不堆术语,只带你从零开始,用真实操作告诉你——重复性手机操作,真的可以交给AI来干

1. 它到底能帮你做什么?先看几个真正在用的例子

别急着装环境,我们先搞清楚一件事:这玩意儿,到底能不能解决你手头那个“烦人但不得不做”的事?

以下所有案例,均来自真实部署后的本地实测(设备:小米13,Android 14;服务端:单卡A10 24G显存;指令输入方式:纯自然语言):

  • “把微信里‘项目同步群’里昨天发的Excel表格下载到手机文件夹‘周报备份’里”
    → 自动跳转微信 → 定位群聊 → 向上滚动查找昨日消息 → 点击Excel附件 → 长按选择“保存到文件” → 新建并命名文件夹 → 完成保存

  • “在淘宝搜‘静音鼠标’,只看销量前5、带‘官方旗舰店’标、价格在80到120之间的商品,截图前三条详情页”
    → 打开淘宝 → 输入关键词 → 筛选销量排序 → 逐条识别店铺标识与价格标签 → 截图符合条件的前三项 → 自动保存至相册

  • “打开高德地图,查从公司到最近的麦当劳步行路线,如果距离超过800米,就改查地铁方案”
    → 启动高德 → 获取当前定位 → 搜索“麦当劳” → 调用步行导航 → 实时读取预估距离 → 判断条件 → 自动切换为地铁模式 → 展示首条结果

这些不是演示视频里的“剪辑效果”,而是你在命令行敲下那行指令后,手机屏幕真实发生的连贯动作。它不依赖预设路径,不硬编码坐标,而是像人一样——先“看”,再“想”,最后“做”。

1.1 和传统自动化方案的本质区别

对比维度传统ADB脚本 / 宏工具Open-AutoGLM
界面理解能力完全没有。靠坐标或UI控件ID硬匹配,APP一更新就崩基于视觉语言模型实时解析整屏截图,识别图标、文字、按钮状态、层级关系
操作逻辑线性流程:A→B→C,中间任何一步失败即终止支持动态规划:若点击“搜索”按钮无响应,自动尝试滑动页面、检查网络、重试或提示用户
指令输入方式必须写代码:adb shell input tap 500 800自然语言:“帮我把小红书收藏夹‘装修灵感’里的第3篇笔记转发到微信文件传输助手”
异常处理需手动加大量if-else判断,维护成本极高内置敏感操作确认机制(如支付、删除),遇到验证码/登录弹窗自动暂停,等你人工接管
跨设备适配每换一台手机就要重新校准坐标屏幕内容理解与操作规划解耦,同一指令在Pixel、华为、OPPO上均可运行

说白了:前者是“教机器人走固定迷宫”,后者是“给机器人一张地图和目的地,让它自己找路”。

2. 三步完成部署:不折腾环境,专注解决问题

很多教程一上来就让你配Python、装ADB、改环境变量……但Open-AutoGLM的设计哲学很务实:让能干活的步骤尽可能前置,把配置门槛压到最低。我们按真实使用顺序来梳理,跳过冗余环节。

2.1 手机端:只需3个动作,5分钟搞定

这不是“开发者专属”,普通用户也能完成。关键在于——只做必要设置,不做多余安装

  1. 开启开发者选项(所有安卓手机通用)
    设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在处于开发者模式”

  2. 启用USB调试
    设置 → 系统与更新 → 开发者选项 → 打开“USB调试”开关
    注意:首次开启会弹出授权提示,勾选“始终允许”,并点击“确定”

  3. 安装ADB Keyboard(仅需一次)

    • 下载地址:https://github.com/senzhk/ADBKeyBoard/releases(最新版apk)
    • 安装后,进入手机“设置 → 语言与输入法 → 当前输入法”,将默认输入法切换为“ADB Keyboard”
      验证方式:连接电脑后,在命令行执行adb shell input text "test",手机输入框应出现“test”

不需要Root,不需要解锁Bootloader,不需要刷机。以上三步在任意主流品牌安卓手机(华为、小米、OPPO、vivo、三星等)上均验证通过。

2.2 电脑端:克隆、安装、验证,三行命令

你不需要成为Linux高手,也不必纠结Python版本。只要你的电脑能跑浏览器,就能跑起来。

# 1. 克隆代码(无需fork,直接用官方主干) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建隔离环境(防冲突,推荐) python3 -m venv .venv source .venv/bin/activate # macOS/Linux # 或 .venv\Scripts\activate.bat # Windows # 3. 一键安装(含所有依赖,含ADB通信模块) pip install -r requirements.txt pip install -e .

验证是否装好:

python -c "from phone_agent.adb import ADBConnection; print('ADB模块加载成功')"

输出ADB模块加载成功即表示核心通信层已就绪。

2.3 连接手机:USB直连 or WiFi远程,随你选

  • USB直连(推荐新手)
    用原装数据线连接手机与电脑 → 手机弹出“允许USB调试”提示 → 勾选“始终允许” → 点击确定
    终端执行:

    adb devices # 正常输出类似:1234567890abcdef device
  • WiFi远程(适合多设备/桌面无USB口)
    先用USB连一次,执行:

    adb tcpip 5555 adb disconnect adb connect 192.168.1.100:5555 # 替换为手机实际IP

    验证:adb devices应显示192.168.1.100:5555 device

小贴士:WiFi连接不稳定?不是模型问题,是网络问题。建议在路由器后台为手机分配静态IP,并关闭省电模式中的“WLAN休眠”。

3. 开始干活:一条命令,让AI替你点、划、输、截

部署完成≠能用。真正的价值,在于你能否用最自然的方式,把它变成“手机里的另一个自己”。下面以三个典型场景为例,展示完整操作流。

3.1 场景一:跨平台信息搬运(微信→备忘录)

需求:把微信里朋友发的一段旅行攻略文字,原样存进系统备忘录,标题为“巴塞罗那行程参考”

执行命令

python main.py \ --device-id 1234567890abcdef \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "把微信聊天中昵称为‘阿哲’最近发的一段文字(含‘圣家堂’‘米拉之家’字样的),复制到系统备忘录,标题设为‘巴塞罗那行程参考’"

AI实际行为分解(非预设,由模型实时决策):

  • 启动微信 → 进入与“阿哲”的对话 → 向上滚动查找含关键词的消息 → 长按该消息 → 点击“复制”
  • 按Home键返回桌面 → 滑动找到“备忘录”图标 → 点击启动 → 点击右上角“+”新建 → 粘贴文字 → 在标题栏输入“巴塞罗那行程参考” → 点击保存

效果:整个过程约28秒,全程无需人工干预。文字格式(换行、标点)完全保留。

3.2 场景二:带条件的批量操作(小红书→截图存档)

需求:在小红书搜索“通义万相”,只保存前3个带“官方”认证标识的笔记封面图

执行命令

python main.py \ --device-id 1234567890abcdef \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "在小红书搜‘通义万相’,找到前3个有‘官方’蓝标认证的笔记,分别截取它们的封面图,保存到相册,文件名按‘通义万相_01’‘通义万相_02’‘通义万相_03’命名"

关键能力体现

  • 准确识别小红书UI中“官方”蓝标的位置与样式(非固定坐标,而是视觉特征匹配)
  • 对每条笔记独立判断:是否含蓝标 → 是否为封面图 → 截图区域自动适配(非全屏)
  • 文件系统操作:调用系统相册API,按规则命名并写入

效果:生成3张高清截图,均保存在手机“DCIM/Screenshots”目录,命名严格符合要求。

3.3 场景三:多步骤事务处理(美团→比价→下单)

需求:在美团买一杯瑞幸咖啡“生椰拿铁(中杯)”,自动比对附近3家门店价格,选最便宜的下单,备注“少冰、去糖浆”

执行命令

python main.py \ --device-id 1234567890abcdef \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "在美团APP里,搜索瑞幸咖啡,找到‘生椰拿铁(中杯)’,对比距离我最近的3家店的价格,选最便宜的一家,加入购物车,备注‘少冰、去糖浆’,不付款"

为什么这很难被传统方案实现?

  • 需要实时读取地图定位 → 解析门店列表中的距离数值 → 识别每家店菜单页的价格数字 → 比较大小 → 反向定位对应门店 → 点击进入 → 加购 → 填写备注
  • 全程涉及至少7个不同界面跳转、4类动态数据提取(距离、价格、SKU ID、备注字段)、2次条件判断

效果:AI在1分42秒内完成全部操作,购物车中准确显示所选商品与备注,停留在“去结算”页面,等待你最终确认。

4. 实战避坑指南:那些文档没写,但你一定会遇到的问题

再好的工具,落地时也会撞墙。以下是我们在20+台真机、5类主流ROM(MIUI、ColorOS、EMUI、OriginOS、One UI)上踩过的坑,以及最简解决方案:

4.1 “ADB devices 显示 device,但 main.py 报错连接失败”

现象adb devices返回正常,但运行main.py时提示Connection refusedDevice not found
根因:Open-AutoGLM 默认使用adb -s <id> shell,而部分国产ROM(如MIUI 14+)对ADB Shell权限做了限制
解法

# 在手机上手动开启「USB调试(安全设置)」 # 设置 → 更多设置 → 开发者选项 → 找到「USB调试(安全设置)」→ 打开 # 然后重新执行 adb devices,应看到两个device条目(含 *daemon* 字样)

4.2 “执行到输入文字时卡住,屏幕无反应”

现象:AI能打开APP、能点击按钮,但到需要输入文字时(如搜索框),光标闪烁但无输入
根因:ADB Keyboard未被系统设为默认输入法,或被其他输入法抢占焦点
解法

  • 进入手机「设置 → 语言与输入法」,确保“ADB Keyboard”排在输入法列表首位
  • 若仍无效,临时禁用其他第三方输入法(如百度、搜狗),重启手机后再试

4.3 “模型返回乱码/指令不执行,日志显示‘context length exceeded’”

现象:终端输出大量符号或中文乱码,或直接无响应
根因:服务端vLLM启动时--max-model-len参数过小,无法承载长上下文(如复杂多步骤指令)
解法

  • 重启服务端,增加参数:
    python -m vllm.entrypoints.api_server \ --model zhipu/autoglm-phone-9b \ --tensor-parallel-size 1 \ --max-model-len 8192 \ # 关键!必须≥4096 --port 8000
  • 同时确保GPU显存≥16G(9B模型最低要求)

4.4 “敏感操作被拦截,但我想跳过确认”

现象:执行“删除微信聊天记录”等指令时,AI主动暂停并提示“检测到敏感操作,请人工确认”
解法(仅限测试环境):
修改phone_agent/agent/executor.py第187行附近:

# 原代码(注释掉) # if is_sensitive_action(action): # return {"status": "paused", "reason": "sensitive action"} # 改为直接放行 if is_sensitive_action(action): logger.warning(f"跳过敏感操作拦截: {action}")

生产环境请勿关闭,此为安全设计,非Bug。

5. 它不是万能的,但已是目前最接近“真人操作”的方案

必须坦诚:Open-AutoGLM 仍有明显边界。它不是魔法,而是一个仍在快速进化的工程成果。了解它的局限,才能更高效地用好它。

5.1 当前明确不支持的场景

  • 生物识别类操作:指纹支付、人脸解锁、应用锁。模型无法驱动系统级生物传感器。
  • 强反自动化APP:微信、银行类App的“设备风险检测”可能触发二次验证(如短信验证码),此时AI会暂停并等待人工接管。
  • 实时音视频交互:无法处理正在通话中的微信语音、Zoom会议中的共享屏幕等动态流媒体界面。
  • 非标准渲染UI:部分游戏或自定义View组件(如Flutter全自绘界面)因缺乏文本语义,识别准确率下降。

5.2 但它正在快速补足短板

根据GitHub最新commit(2025年12月15日):

  • 已合并PR #89:支持通过OCR增强对模糊/低对比度文字的识别能力
  • 已发布v0.2.3:新增“操作回溯”功能,可随时查看AI每一步决策依据(截图+推理日志)
  • Roadmap明确:2026年Q1上线离线轻量版(<2GB),支持纯手机端运行,摆脱云端依赖

这意味着——它不是一个“发布即巅峰”的成品,而是一个你参与共建的活体工具。

6. 总结:把时间还给自己,才是技术该有的温度

回到最初的问题:如何用Open-AutoGLM解决重复性手机操作?

答案其实很简单:它不解决“怎么操作”,而是消解“需要操作”这个前提本身

当你不再需要每天手动打开10个App、复制粘贴5段文字、比对3家价格、点击20次确认按钮——那些被释放出来的时间,才是真正属于你的。可能是多陪孩子半小时,可能是读完半本书,也可能只是安静喝一杯不凉的咖啡。

技术的价值,从来不在参数多炫酷,而在于它是否让普通人更轻松一点。Open-AutoGLM 做到了第一步:它不教你编程,不逼你调参,只要你愿意说一句“帮我做XX”,它就真的开始干活。

下一步,轮到你了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

http://www.cnnetsun.cn/news/839853.html

相关文章:

  • 游戏模组整合平台全攻略:打造个性化游戏体验
  • Local Moondream2惊艳效果展示:一张图生成超详细英文描述案例集
  • all-MiniLM-L6-v2避坑指南:常见部署问题解决方案
  • GLM-4.7-Flash实战解析:中文法律条文理解、金融报告生成效果实测
  • SenseVoice Small效果实测:Auto模式识别中英混杂会议录音全记录
  • 围棋AI分析工具:零基础掌握智能对局复盘与定式研究全攻略
  • Local Moondream2快速入门:基于GPU的轻量级模型部署指南
  • 5个核心功能助力生命科学研究者实现高效图像分析
  • 噬菌体展示文库筛选技术解读:如何高效获取高亲和力抗体?
  • Zotero SciPDF:重新定义学术文献获取的智能解决方案
  • Qwen2.5-7B模型路径设置:/Qwen2.5-7B-Instruct详解
  • 自媒体创作者福音:gpt-oss-20b帮你自动生成爆款文案
  • 5分钟上手Live Avatar数字人,阿里开源模型一键生成会说话的虚拟形象
  • 热词功能太实用!提升专业术语识别准确率40%
  • 零基础玩转SiameseUniNLU:中文文本分类与情感分析实战教程
  • CCMusic音乐分类:无需代码的AI音频分析方案
  • 5个终极方案彻底解决ComfyUI-Manager故障:从快速修复到系统优化
  • SiameseUIE惊艳案例:周杰伦台北市+林俊杰杭州市跨城市精准匹配
  • VibeVoice保姆级教程:从安装到语音合成的完整指南
  • Z-Image Turbo开发者案例:集成AI绘图功能到自有平台
  • C++模板编程中的嵌套模板类型解析
  • 旋转圆盘上的摆动模拟
  • 踩坑记录:部署VibeThinker-1.5B时遇到的问题全解
  • 低延迟通信优化:ChatGLM3-6B WebSocket集成实战
  • AI净界-RMBG-1.4多场景应用:游戏MOD制作、虚拟偶像立绘、NFT素材生成
  • 无需乐理!Local AI MusicGen文字转音乐功能实测与效果展示
  • STM32H7上实现稳定串行通信的完整示例
  • OpenSpeedy系统优化探索:解锁Windows性能潜力的实用指南
  • WuliArt Qwen-Image TurboGPU算力优化:24G显存跑满1024×1024生成实测
  • XHS-Downloader:让小红书无水印采集效率提升90%的黑科技工具