当前位置：首页 > news >正文

如何用Open-AutoGLM解决重复性手机操作？答案在这

news 2026/7/3 15:52:30

如何用Open-AutoGLM解决重复性手机操作？答案在这

你有没有过这样的经历：每天早上固定时间打开健康App打卡；每周五下午三点准时在企业微信里提交周报；每次下单前都要反复比价三款外卖App的满减规则；甚至只是想给某个小红书博主点个关注，却要在抖音、小红书、微博三个平台来回切换、手动搜索、点击、确认……这些不是工作难点，却是实实在在的时间黑洞。

更让人无奈的是——它们无法被传统自动化工具覆盖。宏录制不识别界面变化，脚本写到一半发现APP更新了布局，而“点击坐标”方案在不同分辨率手机上直接失效。直到Open-AutoGLM出现，事情开始不一样了。

这不是又一个需要写代码、调参数、配环境的AI玩具。它是一套真正面向“人”的手机智能助理框架：你用大白话说话，它看懂屏幕、理解意图、自己动手。今天这篇文章，不讲原理、不堆术语，只带你从零开始，用真实操作告诉你——重复性手机操作，真的可以交给AI来干。

1. 它到底能帮你做什么？先看几个真正在用的例子

别急着装环境，我们先搞清楚一件事：这玩意儿，到底能不能解决你手头那个“烦人但不得不做”的事？

以下所有案例，均来自真实部署后的本地实测（设备：小米13，Android 14；服务端：单卡A10 24G显存；指令输入方式：纯自然语言）：

“把微信里‘项目同步群’里昨天发的Excel表格下载到手机文件夹‘周报备份’里”
→ 自动跳转微信 → 定位群聊 → 向上滚动查找昨日消息 → 点击Excel附件 → 长按选择“保存到文件” → 新建并命名文件夹 → 完成保存
“在淘宝搜‘静音鼠标’，只看销量前5、带‘官方旗舰店’标、价格在80到120之间的商品，截图前三条详情页”
→ 打开淘宝 → 输入关键词 → 筛选销量排序 → 逐条识别店铺标识与价格标签 → 截图符合条件的前三项 → 自动保存至相册
“打开高德地图，查从公司到最近的麦当劳步行路线，如果距离超过800米，就改查地铁方案”
→ 启动高德 → 获取当前定位 → 搜索“麦当劳” → 调用步行导航 → 实时读取预估距离 → 判断条件 → 自动切换为地铁模式 → 展示首条结果

这些不是演示视频里的“剪辑效果”，而是你在命令行敲下那行指令后，手机屏幕真实发生的连贯动作。它不依赖预设路径，不硬编码坐标，而是像人一样——先“看”，再“想”，最后“做”。

1.1 和传统自动化方案的本质区别

对比维度	传统ADB脚本 / 宏工具	Open-AutoGLM
界面理解能力	完全没有。靠坐标或UI控件ID硬匹配，APP一更新就崩	基于视觉语言模型实时解析整屏截图，识别图标、文字、按钮状态、层级关系
操作逻辑	线性流程：A→B→C，中间任何一步失败即终止	支持动态规划：若点击“搜索”按钮无响应，自动尝试滑动页面、检查网络、重试或提示用户
指令输入方式	必须写代码：`adb shell input tap 500 800`	自然语言：“帮我把小红书收藏夹‘装修灵感’里的第3篇笔记转发到微信文件传输助手”
异常处理	需手动加大量if-else判断，维护成本极高	内置敏感操作确认机制（如支付、删除），遇到验证码/登录弹窗自动暂停，等你人工接管
跨设备适配	每换一台手机就要重新校准坐标	屏幕内容理解与操作规划解耦，同一指令在Pixel、华为、OPPO上均可运行

说白了：前者是“教机器人走固定迷宫”，后者是“给机器人一张地图和目的地，让它自己找路”。

2. 三步完成部署：不折腾环境，专注解决问题

很多教程一上来就让你配Python、装ADB、改环境变量……但Open-AutoGLM的设计哲学很务实：让能干活的步骤尽可能前置，把配置门槛压到最低。我们按真实使用顺序来梳理，跳过冗余环节。

2.1 手机端：只需3个动作，5分钟搞定

这不是“开发者专属”，普通用户也能完成。关键在于——只做必要设置，不做多余安装。

开启开发者选项（所有安卓手机通用）
设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在处于开发者模式”
启用USB调试
设置 → 系统与更新 → 开发者选项 → 打开“USB调试”开关
注意：首次开启会弹出授权提示，勾选“始终允许”，并点击“确定”
安装ADB Keyboard（仅需一次）
- 下载地址：https://github.com/senzhk/ADBKeyBoard/releases（最新版apk）
- 安装后，进入手机“设置 → 语言与输入法 → 当前输入法”，将默认输入法切换为“ADB Keyboard”
  验证方式：连接电脑后，在命令行执行adb shell input text "test"，手机输入框应出现“test”

不需要Root，不需要解锁Bootloader，不需要刷机。以上三步在任意主流品牌安卓手机（华为、小米、OPPO、vivo、三星等）上均验证通过。

2.2 电脑端：克隆、安装、验证，三行命令

你不需要成为Linux高手，也不必纠结Python版本。只要你的电脑能跑浏览器，就能跑起来。

# 1. 克隆代码（无需fork，直接用官方主干） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建隔离环境（防冲突，推荐） python3 -m venv .venv source .venv/bin/activate # macOS/Linux # 或 .venv\Scripts\activate.bat # Windows # 3. 一键安装（含所有依赖，含ADB通信模块） pip install -r requirements.txt pip install -e .

验证是否装好：

python -c "from phone_agent.adb import ADBConnection; print('ADB模块加载成功')"

输出ADB模块加载成功即表示核心通信层已就绪。

2.3 连接手机：USB直连 or WiFi远程，随你选

USB直连（推荐新手）
用原装数据线连接手机与电脑 → 手机弹出“允许USB调试”提示 → 勾选“始终允许” → 点击确定
终端执行：
```
adb devices # 正常输出类似：1234567890abcdef device
```
WiFi远程（适合多设备/桌面无USB口）
先用USB连一次，执行：
```
adb tcpip 5555 adb disconnect adb connect 192.168.1.100:5555 # 替换为手机实际IP
```
验证：adb devices应显示192.168.1.100:5555 device

小贴士：WiFi连接不稳定？不是模型问题，是网络问题。建议在路由器后台为手机分配静态IP，并关闭省电模式中的“WLAN休眠”。

3. 开始干活：一条命令，让AI替你点、划、输、截

部署完成≠能用。真正的价值，在于你能否用最自然的方式，把它变成“手机里的另一个自己”。下面以三个典型场景为例，展示完整操作流。

3.1 场景一：跨平台信息搬运（微信→备忘录）

需求：把微信里朋友发的一段旅行攻略文字，原样存进系统备忘录，标题为“巴塞罗那行程参考”

执行命令：

python main.py \ --device-id 1234567890abcdef \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "把微信聊天中昵称为‘阿哲’最近发的一段文字（含‘圣家堂’‘米拉之家’字样的），复制到系统备忘录，标题设为‘巴塞罗那行程参考’"

AI实际行为分解（非预设，由模型实时决策）：

启动微信 → 进入与“阿哲”的对话 → 向上滚动查找含关键词的消息 → 长按该消息 → 点击“复制”
按Home键返回桌面 → 滑动找到“备忘录”图标 → 点击启动 → 点击右上角“+”新建 → 粘贴文字 → 在标题栏输入“巴塞罗那行程参考” → 点击保存

效果：整个过程约28秒，全程无需人工干预。文字格式（换行、标点）完全保留。

3.2 场景二：带条件的批量操作（小红书→截图存档）

需求：在小红书搜索“通义万相”，只保存前3个带“官方”认证标识的笔记封面图

执行命令：

python main.py \ --device-id 1234567890abcdef \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "在小红书搜‘通义万相’，找到前3个有‘官方’蓝标认证的笔记，分别截取它们的封面图，保存到相册，文件名按‘通义万相_01’‘通义万相_02’‘通义万相_03’命名"

关键能力体现：

准确识别小红书UI中“官方”蓝标的位置与样式（非固定坐标，而是视觉特征匹配）
对每条笔记独立判断：是否含蓝标 → 是否为封面图 → 截图区域自动适配（非全屏）
文件系统操作：调用系统相册API，按规则命名并写入

效果：生成3张高清截图，均保存在手机“DCIM/Screenshots”目录，命名严格符合要求。

3.3 场景三：多步骤事务处理（美团→比价→下单）

需求：在美团买一杯瑞幸咖啡“生椰拿铁（中杯）”，自动比对附近3家门店价格，选最便宜的下单，备注“少冰、去糖浆”

执行命令：

python main.py \ --device-id 1234567890abcdef \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "在美团APP里，搜索瑞幸咖啡，找到‘生椰拿铁（中杯）’，对比距离我最近的3家店的价格，选最便宜的一家，加入购物车，备注‘少冰、去糖浆’，不付款"

为什么这很难被传统方案实现？

需要实时读取地图定位 → 解析门店列表中的距离数值 → 识别每家店菜单页的价格数字 → 比较大小 → 反向定位对应门店 → 点击进入 → 加购 → 填写备注
全程涉及至少7个不同界面跳转、4类动态数据提取（距离、价格、SKU ID、备注字段）、2次条件判断

效果：AI在1分42秒内完成全部操作，购物车中准确显示所选商品与备注，停留在“去结算”页面，等待你最终确认。

4. 实战避坑指南：那些文档没写，但你一定会遇到的问题

再好的工具，落地时也会撞墙。以下是我们在20+台真机、5类主流ROM（MIUI、ColorOS、EMUI、OriginOS、One UI）上踩过的坑，以及最简解决方案：

4.1 “ADB devices 显示 device，但 main.py 报错连接失败”

现象：adb devices返回正常，但运行main.py时提示Connection refused或Device not found
根因：Open-AutoGLM 默认使用adb -s <id> shell，而部分国产ROM（如MIUI 14+）对ADB Shell权限做了限制
解法：

# 在手机上手动开启「USB调试（安全设置）」 # 设置 → 更多设置 → 开发者选项 → 找到「USB调试（安全设置）」→ 打开 # 然后重新执行 adb devices，应看到两个device条目（含 *daemon* 字样）

4.2 “执行到输入文字时卡住，屏幕无反应”

现象：AI能打开APP、能点击按钮，但到需要输入文字时（如搜索框），光标闪烁但无输入
根因：ADB Keyboard未被系统设为默认输入法，或被其他输入法抢占焦点
解法：

进入手机「设置 → 语言与输入法」，确保“ADB Keyboard”排在输入法列表首位
若仍无效，临时禁用其他第三方输入法（如百度、搜狗），重启手机后再试

4.3 “模型返回乱码/指令不执行，日志显示‘context length exceeded’”

现象：终端输出大量符号或中文乱码，或直接无响应
根因：服务端vLLM启动时--max-model-len参数过小，无法承载长上下文（如复杂多步骤指令）
解法：

重启服务端，增加参数：

python -m vllm.entrypoints.api_server \ --model zhipu/autoglm-phone-9b \ --tensor-parallel-size 1 \ --max-model-len 8192 \ # 关键！必须≥4096 --port 8000

同时确保GPU显存≥16G（9B模型最低要求）

4.4 “敏感操作被拦截，但我想跳过确认”

现象：执行“删除微信聊天记录”等指令时，AI主动暂停并提示“检测到敏感操作，请人工确认”
解法（仅限测试环境）：
修改phone_agent/agent/executor.py第187行附近：

# 原代码（注释掉） # if is_sensitive_action(action): # return {"status": "paused", "reason": "sensitive action"} # 改为直接放行 if is_sensitive_action(action): logger.warning(f"跳过敏感操作拦截: {action}")

生产环境请勿关闭，此为安全设计，非Bug。