🧠AI Eval 与观测

Token 成本与延迟观测

面试回答

常见问法

线上 LLM 服务要盯哪些指标?
Token 用量、成本、延迟怎么做可观测性?
如何拆解一次请求的延迟组成?
线上成本飞涨时怎么定位?

回答

待补充:以「一次请求从进来到返回」的全链路为主线,讲清楚要采集哪些字段、怎么聚合、怎么告警,比「Tracing」的泛讲要实战得多。

追问

TTFT(Time-To-First-Token)和 TPOT(Time-Per-Output-Token)分别反映什么?
Prompt cache 命中率怎么统计?
同一个请求在不同模型上的成本差异怎么追踪?
流式输出下的延迟怎么采集?

原理展开

核心指标四件套:TTFT、TPOT、总时延、失败率
成本维度:输入 token、输出 token、工具调用次数、缓存命中
Tracing 字段:traceId、model、prompt_tokens、completion_tokens、cache_tokens、latency_ttft、latency_total、tool_calls、cost_usd
聚合维度:按用户、按接口、按模型版本、按 prompt 模板
告警规则:p95 TTFT、失败率、token 均值、单用户成本突刺

易错点

只记录 total_tokens,不拆输入输出,算成本失真
忘记记录模型版本,上游换版本后回归测试没数据
Prompt cache 不记录命中率,看不见优化效果
流式场景只统计总时延,忽略 TTFT

记忆技巧

四件套:TTFT / TPOT / 总时延 / 失败率
成本口诀:输入 × 单价 + 输出 × 单价 +(工具 +缓存)
告警口诀:看均值不如看 p95,看总量不如看人均