🧠

Eval 与观测

6 篇文章 · 已读 0 / 6

1. LLM-as-Judge 与人工标注

2. AI应用质量保障

3. Token 成本与延迟观测

4. 回归测试与版本发布

5. 离线评测集

6. 线上指标与Tracing

查看专题概览 / 复习建议

核心问题

为什么 AI 系统必须有评测集
离线评测和线上指标分别解决什么问题
为什么日志、Tracing 和样本回放很关键
没有观测能力时，为什么很难稳定优化系统
如何设计全面的AI系统评估体系
评测结果如何指导系统优化
LLM-as-Judge 能解决什么问题，又有什么风险
回归测试为什么在 Prompt / RAG / Agent 迭代里特别重要

建议复习顺序

离线评测集（基线建立）
线上指标（真实流量监控）
LLM-as-Judge 与人工标注
日志、Tracing 与回放（问题诊断）
回归测试与版本发布

子主题导航

高频追问

为什么只看准确率不够
线上反馈为什么不能替代离线评测
回归测试在 AI 系统里怎么做
如何平衡评测成本和覆盖面
评测结果如何指导产品迭代
Judge 模型会不会把偏差引进评测
为什么评测版本必须和 Prompt / 数据版本绑定

易错点

没有评测集，靠主观体验调系统
只收最终答案，不记录中间链路
离线评测和线上指标脱节
忽略评测集的持续更新

学习策略

记忆技巧

评估体系三层次：

离线评测 = “实验室测试”
线上指标 = “真实路况”
Tracing = “黑匣子记录”

优化闭环：

评测发现问题
分析定位原因
改进验证效果
持续监控优化

关联学习

Eval与观测与前面的专题紧密相关：

LLM基础：模型能力评估
Prompt工程：Prompt效果评测
RAG系统：检索生成质量监控
Agent应用：工具调用性能观测

完整的评估体系是AI系统稳定优化的基础。