LlamaIndex

数据接入和 RAG 见长，更聚焦"喂给模型的数据"这一侧。

详解

LlamaIndex 是围绕「数据如何进入 LLM 应用」展开的框架，强项是把文档、网页、数据库、表格等来源接入后，完成读取、切块、索引、检索、重排和答案合成。它不只是向量库包装器，也包含 query engine、chat engine、agent、workflow 和多 Agent 模式，但最常被选中的原因仍是 RAG 数据管道做得细：数据连接器多，索引结构和检索策略可调，适合知识库问答、企业文档检索、结构化数据抽取等场景。评审这类系统时，重点通常是检索质量和数据新鲜度，而不是 agent 数量。它的边界是：如果核心挑战是复杂状态机、人工审批或跨系统流程编排，通常还要和 LangGraph、业务工作流或自研 orchestration 配合。

一个类比

LlamaIndex 像一个专业图书馆员：不管你的「书」是 PDF、Notion 页面还是数据库表格，他都能帮你把内容整理成索引卡片，你提问时他精准找到最相关的几张卡片递给你。但如果你要他同时去外面买书、打电话订餐，他就没那么顺手了。

举个例子

一家公司有上万份技术手册分散在 Confluence、Notion 和本地 PDF 中，工程师需要快速查询某型设备的故障排查步骤。用 LlamaIndex 接入多个数据源、统一建立向量索引后，工程师输入自然语言问题，系统在毫秒级定位到相关段落并给出综合答案，而不是返回一堆链接。

PYTHON 示例