🧠AI Eval 与观测
回归测试与版本发布
面试回答
常见问法
AI 系统为什么特别需要回归测试?版本发布应该怎么做?
回答
因为 AI 系统的变化点很多,而且相互影响:
- 模型版本变了
- Prompt 变了
- 检索数据变了
- rerank 变了
- 工具逻辑变了
这些改动都可能让系统在另一类问题上退化,所以每次迭代都需要有固定评测集做回归测试,版本发布也要尽量可回滚、可比较。
追问
- 为什么 AI 项目不能只靠人工体验验收
- 回归测试集应该怎么分层
- 线上灰度和回滚为什么比“一次性全量切换”更重要
原理展开
一个实用的 AI 发布流程通常包含:
- 离线评测跑基线
- 和当前版本做对比
- 样本级别查看差异
- 小流量灰度
- 线上监控异常再放量
关键点不是“有没有评分”,而是“能不能定位退化样本和对应版本变化”。
面试里可以强调: “AI 系统发布不是只发代码,还要一起绑定模型版本、Prompt 版本、索引版本和评测版本。”
易错点
- 只看平均分,不看关键case是否退化
- 评测集不分层,难以定位影响范围
- 发布时不记录 Prompt / 数据 / 模型版本
记忆技巧
记住发布闭环:
- 先离线比
- 再线上灰
- 出问题能回