LangSmith / LangFuse / Arize

观测平台

可视化你的 Agent 链路、token 消耗、错误率。

详解

LLM 可观测平台专为 AI 应用设计,提供 Trace 可视化、成本统计、错误率监控和评估打分,填补了通用监控工具(Datadog、Grafana)的盲区——后者不懂 token、不懂 prompt、不懂多轮对话的树状结构。主流平台各有侧重:Helicone 最轻量,改一行 base URL 即可接入,适合刚起步的项目;Langfuse 开源可自托管,Trace 细节最丰富,适合需要数据主权的团队;LangSmith 是 LangChain 生态原配,与 LangGraph 深度整合,代价是强绑定其技术栈;Arize/Phoenix 定位 ML 平台,适合同时管理传统 ML 和 LLM 的团队。选型口诀:快速接入选 Helicone,自托管选 Langfuse,LangGraph 用户选 LangSmith。

一个类比
就像餐厅的后厨监控系统:出菜速度、食材消耗、退单率、顾客投诉,每一条单子从下单到上桌的全链路都有记录。厨师长(你)不需要站在每个炉子旁边盯着,打开控制台就能看到哪道菜出得最慢、哪个厨师的差错率最高、今天食材成本超了多少。LLM 可观测平台就是 Agent 的这套「后厨监控系统」。
举个例子
# 接入 Langfuse(开源、可自托管)——三步完成
# 1. 安装:pip install langfuse
# 2. 设置环境变量:
#    LANGFUSE_PUBLIC_KEY=pk-lf-...
#    LANGFUSE_SECRET_KEY=sk-lf-...
#    LANGFUSE_HOST=https://cloud.langfuse.com  # 或自托管地址

import anthropic
from langfuse.decorators import langfuse_context, observe

client = anthropic.Anthropic()

@observe()  # 装饰器自动把函数包成一个 Trace/Span
def answer_question(question: str) -> str:
    resp = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=256,
        messages=[{"role": "user", "content": question}]
    )
    # 手动上报 token 消耗(用于成本统计)
    langfuse_context.update_current_observation(
        usage={"input": resp.usage.input_tokens, "output": resp.usage.output_tokens}
    )
    return resp.content[0].text

# 正常调用——Langfuse 自动在后台记录 trace
print(answer_question("什么是 RAG?"))
# 登录 https://cloud.langfuse.com 查看:调用链、耗时、token、成本
PYTHON 示例
相关概念