Multimodal Agent

多模态智能体

能看图、看视频、听音频，不止处理文字。

详解

多模态 Agent 是指底层模型不只处理文字，还能理解图片、截图、音频、视频或结构化文件，并据此调用工具或执行操作。关键不是「能上传图片」，而是感知、推理和行动形成闭环：Agent 看见网页截图，理解按钮、表格和错误提示，决定下一步点击哪里；或听完会议录音，提取任务并写入项目管理工具。Claude、GPT、Gemini 等主流模型都已支持多种模态，但生产能力仍受限制：图片和视频会显著增加成本与延迟，视频常需要抽帧或片段化处理，票据、手写、复杂图表的识别仍需校验。实践中应把多模态输出当作「可疑传感器读数」，结合规则、工具校验和人工抽检；对高价值流程，还应保留原图、音频片段或证据链接，方便事后复核。

一个类比

就像你雇的助手不只会看文字，还会看图、看视频、听录音。你把一张手写便利贴拍照发给他，他能看懂上面写的待办事项，然后帮你安排日历；你发一段会议录音，他听完后整理出行动清单。多模态 Agent 就是这样一个"五感俱全"的助手。

举个例子

场景：仓库管理员每天收到货物后需要手动录入入库单。有了多模态 Agent：管理员用手机拍一张货运单的照片发给 Agent，Agent 识别出品名、数量、批号，自动填入库存系统，并在数量低于安全库存时生成补货请求——整个录入流程从 10 分钟缩短到拍一张照片。

PYTHON 示例