🧠AI Eval 与观测

LLM-as-Judge与人工标注

面试回答

常见问法

LLM-as-Judge 是什么?它能替代人工评测吗?

回答

LLM-as-Judge 是让一个模型去评另一个模型或系统输出,比如判断回答是否相关、是否完整、是否符合格式。它能提升评测效率,但不能完全替代人工标注,因为 Judge 模型本身也有偏差、漂移和偏好问题。

所以更稳妥的做法通常是:

  • 用 LLM-as-Judge 扩大覆盖和提高速度
  • 用人工标注做抽样校验、基准集和关键场景兜底

追问

  • 为什么 Judge 模型也会有偏差
  • 哪些指标更适合 LLM Judge,哪些更适合人工
  • 如何减少 Judge 模型自说自话

原理展开

LLM-as-Judge 常见适合:

  • 相关性
  • 格式合规
  • 是否覆盖关键信息
  • 候选答案对比

但对高风险、强业务标准问题,人工仍然更重要,比如:

  • 是否真的符合政策
  • 是否误导用户
  • 是否会导致业务损失

面试里可以直接说: “LLM Judge 是评测放大器,不是评测真理来源。基准集、抽检和人工复核仍然必要。”

易错点

  • 把 Judge 分数当成绝对真值
  • 不做人工抽检就全自动裁决
  • Judge Prompt 和业务标准脱节

记忆技巧

一句话: “LLM Judge 提效率,人工标注保底线。”