Browser Agent
浏览器 Agent在浏览器内自主完成填表、下单、信息收集等任务。
详解
Browser Agent 是专门在浏览器里工作的 AI Agent,它通过截图、DOM/可访问性树或浏览器自动化接口理解页面,然后决定下一步点击、输入、滚动或跳转。与传统 Playwright/Selenium 脚本不同,它不是把按钮坐标写死,而是根据页面语义和任务目标动态调整,适合填表、比价、信息采集、跨系统录入等流程。当前局限很明确:验证码、登录/二次验证、复杂弹窗、动态加载和反爬策略会降低成功率;涉及付款、提交合同、外发邮件等动作仍应暂停让用户确认。生产上通常把它放在隔离浏览器中运行,限制下载、网络和账号权限,并记录完整 trace 便于复盘;落地时最好先从只读采集任务开始,再逐步开放写操作。
一个类比
就像你雇了一个实习生帮你在电脑上订机票:你告诉他"帮我查下周五上海到北京最便宜的早班机",他打开浏览器、自己搜、自己对比、自己填信息,到了付款那步停下来让你确认。Browser Agent 就是这个实习生,只不过是 AI 来做。
举个例子
场景:你需要每周把十几家供应商官网上的最新报价汇总成一张表格。Browser Agent 自动打开每个网站,找到价格页面,把数字和日期提取出来,填入 Google 表格对应的列——原来要两小时的工作,现在五分钟跑完,你只需最后检查一遍数字是否合理。
PYTHON 示例
相关概念
- → Computer Use· 屏幕操作 Agent