🧠AI Eval 与观测
LLM-as-Judge与人工标注
面试回答
常见问法
LLM-as-Judge 是什么?它能替代人工评测吗?
回答
LLM-as-Judge 是让一个模型去评另一个模型或系统输出,比如判断回答是否相关、是否完整、是否符合格式。它能提升评测效率,但不能完全替代人工标注,因为 Judge 模型本身也有偏差、漂移和偏好问题。
所以更稳妥的做法通常是:
- 用 LLM-as-Judge 扩大覆盖和提高速度
- 用人工标注做抽样校验、基准集和关键场景兜底
追问
- 为什么 Judge 模型也会有偏差
- 哪些指标更适合 LLM Judge,哪些更适合人工
- 如何减少 Judge 模型自说自话
原理展开
LLM-as-Judge 常见适合:
- 相关性
- 格式合规
- 是否覆盖关键信息
- 候选答案对比
但对高风险、强业务标准问题,人工仍然更重要,比如:
- 是否真的符合政策
- 是否误导用户
- 是否会导致业务损失
面试里可以直接说: “LLM Judge 是评测放大器,不是评测真理来源。基准集、抽检和人工复核仍然必要。”
易错点
- 把 Judge 分数当成绝对真值
- 不做人工抽检就全自动裁决
- Judge Prompt 和业务标准脱节
记忆技巧
一句话: “LLM Judge 提效率,人工标注保底线。”