LangSmith / LangFuse / Arize

观测平台

可视化你的 Agent 链路、token 消耗、错误率。

详解

LLM 可观测平台专为 AI 应用设计，提供 Trace 可视化、成本统计、错误率监控和评估打分，填补了通用监控工具（Datadog、Grafana）的盲区——后者不懂 token、不懂 prompt、不懂多轮对话的树状结构。主流平台各有侧重：Helicone 最轻量，改一行 base URL 即可接入，适合刚起步的项目；Langfuse 开源可自托管，Trace 细节最丰富，适合需要数据主权的团队；LangSmith 是 LangChain 生态原配，与 LangGraph 深度整合，代价是强绑定其技术栈；Arize/Phoenix 定位 ML 平台，适合同时管理传统 ML 和 LLM 的团队。选型口诀：快速接入选 Helicone，自托管选 Langfuse，LangGraph 用户选 LangSmith。

一个类比

就像餐厅的后厨监控系统：出菜速度、食材消耗、退单率、顾客投诉，每一条单子从下单到上桌的全链路都有记录。厨师长（你）不需要站在每个炉子旁边盯着，打开控制台就能看到哪道菜出得最慢、哪个厨师的差错率最高、今天食材成本超了多少。LLM 可观测平台就是 Agent 的这套「后厨监控系统」。

举个例子

# 接入 Langfuse（开源、可自托管）——三步完成
# 1. 安装：pip install langfuse
# 2. 设置环境变量：
#    LANGFUSE_PUBLIC_KEY=pk-lf-...
#    LANGFUSE_SECRET_KEY=sk-lf-...
#    LANGFUSE_HOST=https://cloud.langfuse.com  # 或自托管地址

import anthropic
from langfuse.decorators import langfuse_context, observe

client = anthropic.Anthropic()

@observe()  # 装饰器自动把函数包成一个 Trace/Span
def answer_question(question: str) -> str:
    resp = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=256,
        messages=[{"role": "user", "content": question}]
    )
    # 手动上报 token 消耗（用于成本统计）
    langfuse_context.update_current_observation(
        usage={"input": resp.usage.input_tokens, "output": resp.usage.output_tokens}
    )
    return resp.content[0].text

# 正常调用——Langfuse 自动在后台记录 trace
print(answer_question("什么是 RAG？"))
# 登录 https://cloud.langfuse.com 查看：调用链、耗时、token、成本

PYTHON 示例