Computer Use

屏幕操作 Agent

Agent 直接看屏幕、移动鼠标、点击、敲键盘——和你共用同一个桌面。

详解

Computer Use 是让 AI Agent 通过屏幕像人一样操作电脑的能力:模型读取截图或可访问性树,输出鼠标移动、点击、拖拽、键盘输入等动作,再根据下一张截图继续决策。它不依赖业务系统提供 API,因此能覆盖浏览器、桌面软件和遗留系统,但「看得见就能操作」不等于稳定可靠:页面变化、弹窗、登录态、验证码都会让任务失败。Anthropic 的 Claude Computer Use 是代表性实现;更通用的实践是把 Agent 放进隔离浏览器或虚拟机,只给最小权限,并记录每一步动作方便失败后回放。主要风险是网页或文档里的恶意指令会诱导误操作,以及付款、删文件、发送邮件等高影响动作必须人工确认。

一个类比
就像你让一个机器人助手坐在你的电脑前工作:它自己看屏幕,自己移鼠标、自己敲键盘,完全不需要你插手——你只需要在它要付钱或删文件的时候,出现确认一下就好。Computer Use 就是这样一个能自己操作电脑的 AI。
举个例子
场景:你要每天早上把竞争对手官网的最新动态整理到一个表格里。手动做要花 20 分钟。用 Computer Use Agent:Agent 打开浏览器,逐一访问几个竞对网站,截图识别新发布的文章标题和日期,切换到 Excel,依次填入对应单元格,最后保存文件——全程无人值守,你喝完早茶回来表格已经填好了。
PYTHON 示例
相关概念