🧠AI Eval 与观测

回归测试与版本发布

面试回答

常见问法

AI 系统为什么特别需要回归测试?版本发布应该怎么做?

回答

因为 AI 系统的变化点很多,而且相互影响:

  • 模型版本变了
  • Prompt 变了
  • 检索数据变了
  • rerank 变了
  • 工具逻辑变了

这些改动都可能让系统在另一类问题上退化,所以每次迭代都需要有固定评测集做回归测试,版本发布也要尽量可回滚、可比较。

追问

  • 为什么 AI 项目不能只靠人工体验验收
  • 回归测试集应该怎么分层
  • 线上灰度和回滚为什么比“一次性全量切换”更重要

原理展开

一个实用的 AI 发布流程通常包含:

  1. 离线评测跑基线
  2. 和当前版本做对比
  3. 样本级别查看差异
  4. 小流量灰度
  5. 线上监控异常再放量

关键点不是“有没有评分”,而是“能不能定位退化样本和对应版本变化”。

面试里可以强调: “AI 系统发布不是只发代码,还要一起绑定模型版本、Prompt 版本、索引版本和评测版本。”

易错点

  • 只看平均分,不看关键case是否退化
  • 评测集不分层,难以定位影响范围
  • 发布时不记录 Prompt / 数据 / 模型版本

记忆技巧

记住发布闭环:

  1. 先离线比
  2. 再线上灰
  3. 出问题能回