AI Eval 与观测

LLM-as-Judge 与人工标注

难度：⭐⭐ | 高频指数：🔥🔥 | 应用岗相关度：★★★

面试回答

常见问法

什么是 LLM-as-Judge？什么场景才用得上？
Judge 模型有哪些已知偏差？怎么校准？
Pairwise、Pointwise、Reference-based 这三种打分模式怎么选？
LLM-as-Judge 能不能完全替代人工标注？为什么？
人工标注一致性怎么衡量？Cohen κ 和 Fleiss κ 怎么用？
实战里 Judge 和人工怎么混合工作？

回答

LLM-as-Judge 就是让一个模型去给另一个模型/系统的输出打分——判相关性、判格式、判完整度、判两个回答谁更好。它解决的核心问题是：传统指标（BLEU、ROUGE）在开放式生成上完全失效，而人工标注又跑不动量。

但工程上要立刻打住一个误解：Judge 不是评测真理来源，是评测放大器。Judge 模型本身有位置偏差、自我偏好、长度偏好这些已经被论文证实过的系统性问题——直接拿 Judge 分当 KPI 是危险的。

实战里成熟的做法是分层混用：Judge 跑全量做快速反馈和 dashboard，人工抽样校准 Judge、做高风险样本的兜底、维护黄金集。两者是互补不是替代——用 Judge 提覆盖，用人工保底线。

面试官真正想问的是：你知不知道 Judge 的边界在哪、有没有用人工标注做校准、有没有把这两者拼成一条可演进的工作流。

追问

Judge 模型常见的位置偏差是什么？怎么 mitigate？
为什么 Pairwise 比 Pointwise 更稳？什么时候反过来？
没有 Reference 的开放生成场景，Judge 怎么打分？
Judge Prompt 怎么写？为什么 Rubric 必须明确？
标注双盲是怎么做的？为什么会影响一致性？
Inter-annotator agreement 多少算可用？低于阈值怎么办？

原理展开

1. LLM-as-Judge 是什么、解决了什么

传统 NLP 指标（BLEU、ROUGE、BERTScore）依赖参考答案做字面/语义匹配，在开放生成场景下系统性失效——同一个问题可能有上百种合理回答，匹配指标根本覆盖不了。

LLM-as-Judge 的思路是：既然人能判断「这个回答好不好」，那让能力够强的模型也来判一遍。它解决了三个传统指标解决不了的场景：

开放式输出：写作、摘要、对话，没有标准答案
多维度打分：相关性 + 流畅性 + 安全性 + 格式，一个调用拿到一组分
对比评估：A 和 B 谁更好，比绝对分更稳定

判断标准是：只要任务的「好坏」需要常识或语义理解才能判定，Judge 就比规则/匹配类指标更合适。

2. 适用场景和不适用场景

不是所有评测都该上 Judge。工程上分得清楚：

场景	是否适合 Judge	原因
开放问答相关性	适合	需要语义判断
摘要质量	适合	主观维度多
格式合规检查	一般	规则就够了，更便宜
事实正确性	弱适合	Judge 自己也会幻觉
数学/代码正确性	不适合	用执行结果验证
安全/合规判定	不适合	高风险，人工或专门分类器
Pairwise 偏好对比	强适合	Judge 最稳的用法

Pairwise 是 Judge 的最佳战场——让 Judge 判「A 还是 B 更好」远比让它给绝对分稳定，因为对比天然消除了打分基线漂移。

3. Judge 模型的已知偏差

这是面试高频考点，必须能说出名字：

位置偏差（Position Bias）：把同一个回答放在「答案 A」位置和「答案 B」位置，Judge 给的分会不一样。论文里证实 GPT-4 也偏好「先看到的那个」。

Mitigate：每对样本跑两次，A/B 交换位置取平均。

自我偏好（Self-Preference Bias）：用 GPT-4 评 GPT-4 输出 vs Claude 输出，会系统性偏向 GPT-4。

Mitigate：用「第三方」Judge，或者多 Judge 投票。

长度偏好（Length Bias）：Judge 倾向于认为长回答更好，哪怕长出来的部分是废话。

Mitigate：Rubric 里明确「冗余扣分」，或者控制候选答案长度对齐。

风格偏好（Style/Format Bias）：Markdown、列表、emoji 这种格式化输出更容易拿高分，纯文本吃亏。

Mitigate：要么统一格式，要么在 Rubric 里禁掉格式加分。

判断标准：任何 Judge 上线前都要做这四类偏差的探测——没做过的等于在用没校准的尺子量东西。

4. Pointwise / Pairwise / Reference-based 三种模式

三种打分模式对应不同场景：

Pointwise：给单个回答打绝对分（1-5 或 0-1）
- 优点：能算平均分、能跨样本聚合
- 缺点：基线漂移大，不同次跑分数对不齐
- 适合：大规模 dashboard、需要可聚合的指标
Pairwise：A vs B，让 Judge 选谁更好
- 优点：最稳定，对比天然校准
- 缺点：算总分要做 Elo / Bradley-Terry 转换
- 适合：模型/Prompt 对比、A/B 实验
Reference-based：给 Judge 一个参考答案，判候选答案 vs 参考的接近度
- 优点：标准最明确，偏差最小
- 缺点：需要有参考答案（黄金集成本高）
- 适合：有标准答案的封闭场景、回归测试

实战选择：做对比选 Pairwise，做 dashboard 选 Pointwise，做回归测试选 Reference-based。

5. 和人工标注的关系：互补不是替代

很多团队问「Judge 上了还要不要人工」，正确答案是：永远需要，但比例可以降到 5% 以下。

两者的分工：

人工标注的不可替代价值：
  ├─ 黄金集维护（Judge 的校准基准）
  ├─ 高风险样本兜底（法律、医疗、金融）
  ├─ Judge 偏差探测（系统性偏差只有人能发现）
  ├─ 新场景冷启动（没数据时 Judge 也不知道怎么判）
  └─ 业务边界争议（涉及业务规则的判断）

Judge 的不可替代价值：
  ├─ 规模覆盖（人工跑不动 10w 样本）
  ├─ 实时反馈（线上每次发布跑全量评测）
  ├─ 一致性（Judge 不会今天累了明天心情好）
  └─ 成本（比人工便宜 10~100 倍）

判断标准：Judge 跑全量做日常监控，人工做 5% 抽样校准 + 100% 高风险样本兜底。

6. 标注协议设计

人工标注一旦做就要做规范，否则数据质量比 Judge 还差：

Rubric 必须可执行：「回答是否相关」太模糊，要拆成「是否回答了问题主体」「是否覆盖关键约束」「是否引入无关信息」三个二元判断。主观维度越少，一致性越高
双盲设计：标注员不知道哪个回答来自哪个版本/模型，避免品牌偏差
每条样本至少 2 个标注员：分歧样本上第三人仲裁
小批量培训 + 一致性检查：先发 50 条种子样本，标注员之间对齐再放量
持续校准：每周抽查 5% 样本，标注员漂移要及时纠正

实战里 90% 的标注质量问题来自 Rubric 写得太抽象——「自然流畅」「专业准确」这种词标 100 个人有 100 种理解。

7. Inter-annotator agreement：怎么算、多少算可用

衡量标注一致性的标准指标：

Cohen’s κ（两个标注员）：
```
κ = (P_o - P_e) / (1 - P_e)
P_o = 实际一致率
P_e = 随机一致率（按各分类先验算）
```
排除了「随机蒙对」的部分，比简单一致率更可信。
Fleiss’ κ（≥3 个标注员）：扩展到多人场景

判断标准（业界经验）：

κ < 0.4      → 标注协议有问题，重写 Rubric
0.4 ≤ κ < 0.6 → 可用但需要仲裁机制
0.6 ≤ κ < 0.8 → 健康，主流业界水平
κ ≥ 0.8       → 优秀，通常只在客观任务能达到

主观任务（如「回答有用程度」）能稳定到 0.6 就不错了——追求 0.9 反而说明 Rubric 退化成了机械规则。

8. 混合工作流：Judge 初筛 + 人工抽查

生产级别的评测工作流通常长这样：

全量样本 (10w)
    │
    ▼
LLM-as-Judge 跑分 (Pairwise / Pointwise)
    │
    ├─ 高置信样本 (Judge 双跑一致)    → 直接采用
    │
    ├─ 低置信样本 (Judge 双跑分歧)    → 人工标注
    │
    └─ 高风险样本 (业务规则命中)       → 强制人工
                                           │
                                           ▼
                                       结果回流
                                           │
                                           ▼
                                   作为 Judge 校准集

这套流程的核心是闭环：人工标注的不只是当前样本，更是在持续校准 Judge 模型——发现 Judge 在哪类 case 上系统性出错，反过来调 Judge Prompt 或者换 Judge 模型。

9. Judge 校准：用人工标注做验证集

Judge 上线前必须做一次校准：

从历史样本里抽 200~500 条，人工标注作为「真值」
让 Judge 也跑这批样本
算 Judge 和人工的一致率（Cohen κ / Spearman 相关）
κ < 0.4 不要用，改 Judge Prompt 或换模型；κ ≥ 0.6 可以上线但要定期复检

校准不是一次性工作——每次换 Judge 模型、改 Rubric、扩新场景，都要重跑。线上 Judge 漂移是常见问题，主要诱因是模型版本静默升级。

对比总结

维度	LLM-as-Judge	人工标注
覆盖规模	可跑全量 10w+	通常 100~1000 条
速度	分钟级	小时~天级
成本	$0.01~0.1 / 样本	$0.5~5 / 样本
一致性	高（同 Prompt 同模型稳定）	中（人会漂移）
主观偏差	系统性（位置/长度/自我偏好）	个体性（可通过多人投票降低）
适合任务	开放生成、Pairwise 对比	高风险、边界、新场景
校准能力	需要被人工校准	可作为校准基准
长期角色	日常监控放大器	黄金集守门人

易错点

把 Judge 分数当成绝对真值——Judge 自己也是模型，有幻觉、有偏差
不做位置交换就跑 Pairwise——位置偏差会让结果系统性偏向某一边
用 GPT-4 评 GPT-4 输出——自我偏好会高估自家模型
Rubric 写得太抽象（「自然流畅」「专业」）——标注员一致性直接崩
不做 Judge 校准就上线——线上数字看着漂亮，其实和人类判断不相关
只看 κ 不看分布——κ 高可能是因为多数样本都标同一类，分布不均也能蒙高
Judge 模型升级不重跑校准——上游 GPT-4 静默换版本是常态

记忆技巧

三组锚点记住核心：

Judge 三大偏差：位置（A/B 交换）/ 自我（换第三方）/ 长度（Rubric 卡冗余）
三种模式：Pointwise（聚合）/ Pairwise（对比，最稳）/ Reference-based（回归）
混合分工：Judge 跑全量 / 人工抽 5% / 高风险 100% 人工

一句话：Judge 是放大器，不是真理；人工是基准，不是工厂。

面试速答版

LLM-as-Judge 就是让一个能力够强的模型去给另一个系统的输出打分，解决传统指标（BLEU、ROUGE）在开放生成上失效的问题。核心定位是评测放大器，不是评测真理来源——Judge 自己有位置偏差、自我偏好、长度偏好这些系统性问题，直接拿分数当 KPI 是危险的。

工程上分层混用：Judge 跑全量做实时反馈和 dashboard，人工抽 5% 做校准、100% 兜底高风险样本。Pairwise（A vs B）是 Judge 最稳的用法，因为对比天然消除了基线漂移。

人工标注永远不能去掉——它是 Judge 的校准基准、黄金集的守门人，也是新场景冷启动的唯一办法。两者是互补不是替代，工程上要拼成一条闭环工作流。

面试加分版

Judge 校准必须做且定期做：上线前用 200~500 条人工标注算 Cohen κ，κ < 0.4 不能用。模型版本一升级就要重跑校准，否则线上数字静默漂移
Pairwise 比 Pointwise 更稳是有理论原因的：对比消除了打分基线漂移，可以用 Bradley-Terry 把两两对比转成全局 Elo 分，结果比直接打绝对分稳得多
Rubric 的可执行度决定一切：「回答自然」这种主观词必须拆成可二元判断的子项，否则人工标注和 Judge 都做不稳定，一致性低 90% 的原因是 Rubric 退化成了感觉
和「离线评测集」配合的方式：黄金集由人工维护、Judge 做日常跑分、人工抽查校准 Judge。这条链路上每一环都不能省，省任何一环都会让评测结果失真

Related · Eval 与观测