🧠AI Eval 与观测

Token 成本与延迟观测

面试回答

常见问法

  • 线上 LLM 服务要盯哪些指标?
  • Token 用量、成本、延迟怎么做可观测性?
  • 如何拆解一次请求的延迟组成?
  • 线上成本飞涨时怎么定位?

回答

待补充:以「一次请求从进来到返回」的全链路为主线,讲清楚要采集哪些字段、怎么聚合、怎么告警,比「Tracing」的泛讲要实战得多。

追问

  • TTFT(Time-To-First-Token)和 TPOT(Time-Per-Output-Token)分别反映什么?
  • Prompt cache 命中率怎么统计?
  • 同一个请求在不同模型上的成本差异怎么追踪?
  • 流式输出下的延迟怎么采集?

原理展开

  • 核心指标四件套:TTFT、TPOT、总时延、失败率
  • 成本维度:输入 token、输出 token、工具调用次数、缓存命中
  • Tracing 字段:traceId、model、prompt_tokens、completion_tokens、cache_tokens、latency_ttft、latency_total、tool_calls、cost_usd
  • 聚合维度:按用户、按接口、按模型版本、按 prompt 模板
  • 告警规则:p95 TTFT、失败率、token 均值、单用户成本突刺

易错点

  • 只记录 total_tokens,不拆输入输出,算成本失真
  • 忘记记录模型版本,上游换版本后回归测试没数据
  • Prompt cache 不记录命中率,看不见优化效果
  • 流式场景只统计总时延,忽略 TTFT

记忆技巧

  • 四件套:TTFT / TPOT / 总时延 / 失败率
  • 成本口诀:输入 × 单价 + 输出 × 单价 +(工具 +缓存)
  • 告警口诀:看均值不如看 p95,看总量不如看人均