Multimodal Agent

多模态智能体

能看图、看视频、听音频,不止处理文字。

详解

多模态 Agent 是指底层模型不只处理文字,还能理解图片、截图、音频、视频或结构化文件,并据此调用工具或执行操作。关键不是「能上传图片」,而是感知、推理和行动形成闭环:Agent 看见网页截图,理解按钮、表格和错误提示,决定下一步点击哪里;或听完会议录音,提取任务并写入项目管理工具。Claude、GPT、Gemini 等主流模型都已支持多种模态,但生产能力仍受限制:图片和视频会显著增加成本与延迟,视频常需要抽帧或片段化处理,票据、手写、复杂图表的识别仍需校验。实践中应把多模态输出当作「可疑传感器读数」,结合规则、工具校验和人工抽检;对高价值流程,还应保留原图、音频片段或证据链接,方便事后复核。

一个类比
就像你雇的助手不只会看文字,还会看图、看视频、听录音。你把一张手写便利贴拍照发给他,他能看懂上面写的待办事项,然后帮你安排日历;你发一段会议录音,他听完后整理出行动清单。多模态 Agent 就是这样一个"五感俱全"的助手。
举个例子
场景:仓库管理员每天收到货物后需要手动录入入库单。有了多模态 Agent:管理员用手机拍一张货运单的照片发给 Agent,Agent 识别出品名、数量、批号,自动填入库存系统,并在数量低于安全库存时生成补货请求——整个录入流程从 10 分钟缩短到拍一张照片。
PYTHON 示例
相关概念