🧠

Eval 与观测

5 篇文章

查看专题概览 / 复习建议

核心问题

  • 为什么 AI 系统必须有评测集
  • 离线评测和线上指标分别解决什么问题
  • 为什么日志、Tracing 和样本回放很关键
  • 没有观测能力时,为什么很难稳定优化系统
  • 如何设计全面的AI系统评估体系
  • 评测结果如何指导系统优化
  • LLM-as-Judge 能解决什么问题,又有什么风险
  • 回归测试为什么在 Prompt / RAG / Agent 迭代里特别重要

建议复习顺序

  1. 离线评测集(基线建立)
  2. 线上指标(真实流量监控)
  3. LLM-as-Judge 与人工标注
  4. 日志、Tracing 与回放(问题诊断)
  5. 回归测试与版本发布

子主题导航

高频追问

  • 为什么只看准确率不够
  • 线上反馈为什么不能替代离线评测
  • 回归测试在 AI 系统里怎么做
  • 如何平衡评测成本和覆盖面
  • 评测结果如何指导产品迭代
  • Judge 模型会不会把偏差引进评测
  • 为什么评测版本必须和 Prompt / 数据版本绑定

易错点

  • 没有评测集,靠主观体验调系统
  • 只收最终答案,不记录中间链路
  • 离线评测和线上指标脱节
  • 忽略评测集的持续更新

学习策略

记忆技巧

评估体系三层次

  • 离线评测 = “实验室测试”
  • 线上指标 = “真实路况”
  • Tracing = “黑匣子记录”

优化闭环

  • 评测发现问题
  • 分析定位原因
  • 改进验证效果
  • 持续监控优化

关联学习

Eval与观测与前面的专题紧密相关:

  1. LLM基础:模型能力评估
  2. Prompt工程:Prompt效果评测
  3. RAG系统:检索生成质量监控
  4. Agent应用:工具调用性能观测

完整的评估体系是AI系统稳定优化的基础。