🧠AI LLM 基础

训练微调与对齐

面试回答

预训练、SFT、RLHF 或对齐分别在解决什么问题？

它们不是一回事，解决的是不同阶段的问题：

所以面试时不要把“微调”和“对齐”混成一句。前者更像把模型往特定任务或风格上拉，后者更强调行为边界和偏好优化。

training_pipeline = [
    "pretrain on large corpus",
    "instruction tuning (SFT)",
    "preference optimization / alignment",
]

预训练让模型获得“会续写、会建模语言分布”的能力，但不代表它天然擅长做助手。

SFT 常见做法是用高质量指令数据，让模型更会：

对齐阶段则更关注：

面试里一个很实用的回答是： “预训练给底座能力，SFT 给指令习惯，对齐给行为边界。”

记住这条链：