🧠AI Eval 与观测

LLM-as-Judge与人工标注

面试回答

常见问法

LLM-as-Judge 是什么？它能替代人工评测吗？

回答

LLM-as-Judge 是让一个模型去评另一个模型或系统输出，比如判断回答是否相关、是否完整、是否符合格式。它能提升评测效率，但不能完全替代人工标注，因为 Judge 模型本身也有偏差、漂移和偏好问题。

所以更稳妥的做法通常是：

用 LLM-as-Judge 扩大覆盖和提高速度
用人工标注做抽样校验、基准集和关键场景兜底

追问

为什么 Judge 模型也会有偏差
哪些指标更适合 LLM Judge，哪些更适合人工
如何减少 Judge 模型自说自话

原理展开

LLM-as-Judge 常见适合：

相关性
格式合规
是否覆盖关键信息
候选答案对比

但对高风险、强业务标准问题，人工仍然更重要，比如：

是否真的符合政策
是否误导用户
是否会导致业务损失

面试里可以直接说： “LLM Judge 是评测放大器，不是评测真理来源。基准集、抽检和人工复核仍然必要。”

易错点

把 Judge 分数当成绝对真值
不做人工抽检就全自动裁决
Judge Prompt 和业务标准脱节

记忆技巧

一句话： “LLM Judge 提效率，人工标注保底线。”