🧠
Eval 与观测
5 篇文章
查看专题概览 / 复习建议
核心问题
- 为什么 AI 系统必须有评测集
- 离线评测和线上指标分别解决什么问题
- 为什么日志、Tracing 和样本回放很关键
- 没有观测能力时,为什么很难稳定优化系统
- 如何设计全面的AI系统评估体系
- 评测结果如何指导系统优化
- LLM-as-Judge 能解决什么问题,又有什么风险
- 回归测试为什么在 Prompt / RAG / Agent 迭代里特别重要
建议复习顺序
- 离线评测集(基线建立)
- 线上指标(真实流量监控)
- LLM-as-Judge 与人工标注
- 日志、Tracing 与回放(问题诊断)
- 回归测试与版本发布
子主题导航
高频追问
- 为什么只看准确率不够
- 线上反馈为什么不能替代离线评测
- 回归测试在 AI 系统里怎么做
- 如何平衡评测成本和覆盖面
- 评测结果如何指导产品迭代
- Judge 模型会不会把偏差引进评测
- 为什么评测版本必须和 Prompt / 数据版本绑定
易错点
- 没有评测集,靠主观体验调系统
- 只收最终答案,不记录中间链路
- 离线评测和线上指标脱节
- 忽略评测集的持续更新
学习策略
记忆技巧
评估体系三层次:
- 离线评测 = “实验室测试”
- 线上指标 = “真实路况”
- Tracing = “黑匣子记录”
优化闭环:
- 评测发现问题
- 分析定位原因
- 改进验证效果
- 持续监控优化
关联学习
Eval与观测与前面的专题紧密相关:
- LLM基础:模型能力评估
- Prompt工程:Prompt效果评测
- RAG系统:检索生成质量监控
- Agent应用:工具调用性能观测
完整的评估体系是AI系统稳定优化的基础。