CH.00

Agent 开发，
先认全这张图。

一份给中文工程师的 Agent 开发入门图谱——11 个主题、70+ 核心名词、高频面试题。每个节点点进去都有 300–500 字详解、类比、例子，和预留的 Python 代码位。

使用说明→点击章节展开 / 点击名词查看详解 / 点击 \"仅看核心\" 聚焦 ⭐⭐

MAP11 chapters

★ 必学★★ 核心

理解大模型 API 的本质——一次无状态的 HTTP 请求

◇ 核心名词

├──Token / Tokenization· 分词●├──Context Window· 上下文窗口●├──Temperature / Top-p / Top-k· 采样参数●├──System / User / Assistant Role· 消息角色●├──Stateless API· 无状态接口●├──Streaming· 流式输出●├──Knowledge Cutoff· 知识截止●└──Hallucination· 幻觉●

◇ 高频问题

├──LLM API 为什么是无状态的？怎么让它"有记忆"？

├──Temperature 调高调低分别适合什么场景？

├──Context Window 满了怎么办？有哪些策略？

├──怎么减少幻觉？

├──Token 和字数有什么区别？为什么它会影响成本和延迟？

├──System、User、Assistant 这些角色分别有什么用？

└──Streaming 流式输出解决什么问题？它有什么代价？

详情 →

用语言精确地驱动模型

◇ 核心名词

├──System Prompt vs User Prompt· 系统提示词与用户提示词●├──Few-shot / Zero-shot· 少样本 / 零样本●├──CoT (Chain-of-Thought)· 思维链●├──ToT (Tree-of-Thought)· 思维树●├──Self-Consistency· 自洽性投票●├──Self-Critique / Self-Refine· 自我批评与修正●├──Structured Output· 结构化输出●└──Prompt Injection (Prompt 层)· 提示词注入●

◇ 高频问题

├──怎么写一个稳定输出 JSON 的 Prompt？

├──CoT 为什么能提升推理能力？什么场景反而会拖累？

├──怎么防止用户输入污染 System Prompt？

├──Few-shot 和 Zero-shot 怎么选？

├──Tree-of-Thought 适合解决什么问题？

├──Self-Consistency 是什么？为什么能提升稳定性？

└──Self-Critique / Self-Refine 什么时候有用？

详情 →

让模型不仅会说，还会做——Agent 的发动机

◇ 核心名词

├──Function Calling· 函数调用●├──Tool Schema· 工具定义●├──Tool Choice· 工具选择策略●├──Parallel Tool Calls· 并行工具调用●├──Tool Result· 工具返回●└──MCP (Model Context Protocol)· 模型上下文协议●

◇ 高频问题

├──描述一次完整的 Function Calling 流程（从用户提问到最终回答）

├──模型并不真的"执行"函数，那它做了什么？

├──工具描述（description）写得好坏会影响什么？

├──MCP 解决了什么问题？和直接写 Function Calling 有什么区别？

├──一个好的 Tool Schema 应该怎么设计？

├──什么时候应该强制模型调用工具，什么时候让它自己判断？

└──Tool Result 返回给模型时要注意什么？

详情 →

从单次问答到自主完成任务

◇ 核心名词

├──Agent vs Workflow· Agent 与 Workflow 的边界●├──Agent Loop· 智能体循环●├──ReAct· Reasoning + Acting●├──Planning / Plan-and-Execute· 规划●├──Reflection· 反思●├──Multi-Agent· 多智能体协作●├──Orchestrator / Supervisor· 编排者●└──Handoff· 任务交接●

◇ 高频问题

├──Agent 和传统 Workflow 的本质区别是什么？

├──ReAct 的核心循环是什么？

├──什么时候该用单 Agent，什么时候该上 Multi-Agent？

├──Agent 进入死循环了怎么办？

├──Planning 在 Agent 里有什么用？会带来什么风险？

├──Reflection / Self-Critique 在 Agent 中怎么用？

├──Orchestrator 在多 Agent 系统里负责什么？

└──Handoff 什么时候发生？如何避免交接丢信息？

详情 →

让无状态模型表现得像有记忆

◇ 核心名词

├──Short-term Memory· 短期记忆●├──Long-term Memory· 长期记忆●├──Episodic / Semantic Memory· 情景与语义记忆●├──Summarization / Compression· 摘要压缩●├──Sliding Window· 滑动窗口●└──Memory Retrieval· 记忆检索●

◇ 高频问题

├──一个 Agent 的"记忆"通常分几层？分别用什么技术实现？

├──对话历史越来越长，你怎么处理？

├──长期记忆和 RAG 有什么区别？

├──短期记忆和长期记忆分别适合存什么？

├──Memory Retrieval 怎么判断召回的记忆该不该用？

└──记忆系统最容易踩哪些隐私和安全坑？

详情 →

让模型用你的知识库回答问题

◇ 核心名词

├──Embedding· 向量嵌入●├──Vector Database· 向量数据库●├──Chunking· 分块●├──Retrieval / Top-K· 检索●├──Reranking· 重排●├──Hybrid Search· 混合检索●├──Semantic Search· 语义检索●├──Context Stuffing· 上下文塞入●└──GraphRAG· 图谱增强 RAG●

◇ 高频问题

├──完整描述一个 RAG 系统的工作流程

├──检索回来的内容不准怎么办？（列出至少 3 种优化方向）

├──Chunk Size 怎么选？太大太小各有什么问题？

├──为什么要 Reranking？只用向量检索不够吗？

├──用户问"我们公司去年总营收"这种聚合问题，纯 RAG 为什么不行？

├──Embedding 模型和向量数据库分别负责什么？

├──Hybrid Search 和纯 Semantic Search 有什么区别？

└──GraphRAG 适合什么场景？和普通 RAG 有什么不同？

详情 →

认识主流框架，再决定要不要用

◇ 核心名词

├──LangChain●├──LangGraph●├──LlamaIndex●├──AutoGen●├──CrewAI●├──OpenAI Assistants API / Responses API / Anthropic SDK· 官方托管 Agent 方案●└──DSPy· 程序化 Prompt 优化●

◇ 高频问题

├──LangChain 和 LangGraph 的关系？什么场景下选 LangGraph？

├──你为什么选/不选某个框架？

├──LlamaIndex 更适合解决哪类问题？

├──AutoGen、CrewAI 这类多 Agent 框架适合什么场景？

├──官方托管 Agent 方案和自己搭框架有什么区别？

└──DSPy 解决的是什么问题？和手写 Prompt 有什么不同？

详情 →

知道好不好、知道哪里坏了

◇ 核心名词

├──Evaluation / Eval· 评估●├──Golden Dataset· 黄金数据集●├──LLM-as-a-Judge· 大模型当裁判●├──Trace / Span· 链路追踪●├──LangSmith / LangFuse / Arize· 观测平台●└──A/B Testing· A/B 测试●

◇ 高频问题

├──你怎么评估一个 Agent 好不好？

├──LLM-as-a-Judge 有哪些坑？

├──线上 Agent 出 bug 了，你怎么定位？

├──Golden Dataset 应该怎么建设？

├──Trace / Span 在 Agent 里记录什么？

└──A/B Testing 在 Agent 产品里怎么做？

详情 →

把 Demo 变成能跑的生产系统

◇ 核心名词

├──Prompt Caching· 提示词缓存●├──Token Cost· 成本核算●├──Rate Limit· 限流●├──Latency / TTFT· 延迟与首 Token 时间●├──Async / Concurrent· 异步并发●└──Fallback / Retry· 降级与重试●

◇ 高频问题

├──一个 Agent 调用成本太高，你从哪几个维度优化？

├──怎么降低首 Token 延迟？

├──模型超时或限流，你的兜底策略是什么？

├──Prompt Caching 适合缓存什么？

├──Rate Limit 下怎么设计并发调用？

└──Async / Concurrent 在 Agent 里怎么用才安全？

详情 →

面对真实世界的恶意输入和高风险操作

◇ 核心名词

├──Prompt Injection· 提示词注入（安全视角）●├──Jailbreak· 越狱●├──Guardrails· 护栏●├──Sandbox· 沙箱●├──Human-in-the-Loop· 人在回路●└──PII· 个人身份信息●

◇ 高频问题

├──Agent 能执行 Shell 命令，你怎么保证安全？

├──用户在文档里藏了"忽略之前指令"怎么办？

├──什么操作必须 Human-in-the-Loop？

├──Jailbreak 和 Prompt Injection 有什么区别？

├──Guardrails 应该放在输入端还是输出端？

└──Agent 处理 PII 时要注意什么？

详情 →

面试加分项，也是未来 12 个月的主战场

◇ 核心名词

├──Computer Use· 屏幕操作 Agent●├──Browser Agent· 浏览器 Agent●├──Coding Agent· 编码 Agent●├──A2A (Agent-to-Agent)· 智能体间协议●└──Multimodal Agent· 多模态智能体●

◇ 高频问题

├──Computer Use 是什么？它和普通工具调用有什么区别？

├──Browser Agent 和传统爬虫有什么区别？

├──Coding Agent 的典型工作循环是什么？

├──A2A（Agent-to-Agent）主要解决什么问题？

├──多模态 Agent 有哪些典型应用场景？

└──前沿 Agent 方向落地时最该警惕什么？

● 已审校├──点击名词 → 跳转详解页

Agent 开发，先认全这张图。

Agent 开发，
先认全这张图。