前沿方向

面试加分项，也是未来 12 个月的主战场

TERMS · 5

Computer Use屏幕操作 Agent●

Agent 直接看屏幕、移动鼠标、点击、敲键盘——和你共用同一个桌面。

Browser Agent浏览器 Agent●

在浏览器内自主完成填表、下单、信息收集等任务。

Coding Agent编码 Agent●

Claude Code / Cursor / Codex 这类——读你的代码、写补丁、跑测试。

A2A (Agent-to-Agent)智能体间协议●

不同厂商的 Agent 之间互相调用的标准协议——还在早期。

Multimodal Agent多模态智能体●

能看图、看视频、听音频，不止处理文字。

面试高频问答

Computer Use 是让 Agent 像人一样观察屏幕、点击、输入和操作应用。普通工具调用通常是结构化 API,Computer Use 面对的是视觉界面和不稳定 UI,更通用但也更慢、更难验证、更需要安全边界。
- +适合没有 API、只能通过 GUI 完成的任务,例如旧系统录入
- +要限制可操作应用、可访问文件和敏感区域,避免误点高风险操作
- +视觉识别、坐标点击和界面变化都会带来不确定性,必须有回退和确认
传统爬虫主要按规则抓页面和解析数据,Browser Agent 则能在浏览器里理解页面、点击、填写表单、处理登录流程并根据目标调整步骤。它更像自动化操作员,而不是只做数据采集的脚本。
- +Browser Agent 能处理动态页面和复杂交互,但成本和不确定性更高
- +涉及登录、下单、提交表单时要有人确认和权限隔离
- +能用 API 或稳定爬虫解决的问题,不一定需要 Browser Agent
Coding Agent 通常是读需求、检索代码、制定修改点、编辑文件、运行测试、根据错误修复、最后总结变更。它的关键不是一次写完代码,而是能在代码库反馈中迭代,把失败的测试和构建错误当作下一步输入。
- +优秀 Coding Agent 要会遵守仓库风格,而不是生成孤立代码片段
- +必须有版本控制和测试验证,否则很难信任它的修改
- +权限边界很重要,例如不能随便删除文件、泄露密钥或执行危险命令
A2A 关注不同 Agent 之间如何发现能力、交换任务、传递状态和返回结果。它要解决的是跨系统协作问题,让一个 Agent 能把任务交给另一个更专业的 Agent,而不是所有能力都塞进同一个进程。
- +核心难点是身份、权限、任务协议、状态格式和错误处理
- +A2A 不是简单聊天,更需要结构化任务、能力描述和可审计链路
- +实际落地时要防止权限外溢,不能因为另一个 Agent 请求就默认执行
多模态 Agent 能同时处理文本、图片、音频、视频或屏幕状态,适合质检、客服、教育、医疗辅助、设计审阅和机器人控制等场景。它的价值是把"看见"和"行动"连起来,不再只处理文字指令。
- +视觉输入要考虑分辨率、遮挡、OCR 错误和隐私脱敏
- +多模态输出如果会驱动物理或生产动作,必须有更强安全校验
- +很多场景需要把视觉理解转成结构化状态,再交给后续工具执行
最该警惕的是把演示能力误认为生产可靠性。前沿 Agent 往往能完成令人惊艳的单次任务,但上线要看稳定性、权限、安全、成本、延迟、可观测性和失败恢复。
- +先选低风险、可回滚、有明确成功标准的任务落地
- +演示视频不等于评估结果,要用真实数据和失败样本验证
- +越接近真实世界操作,越需要沙箱、审批和审计

← 返回图谱