🧠

LLM 基础

7 篇文章

查看专题概览 / 复习建议

核心问题

  • 大模型和传统机器学习模型的核心差别是什么
  • Transformer 为什么成为主流架构
  • 采样参数会怎么影响输出结果
  • 上下文窗口、成本和延迟之间如何权衡
  • 为什么会出现”幻觉”现象
  • 模型能力的边界在哪里
  • Token 是怎么影响成本、截断和系统设计的
  • 预训练、SFT、RLHF/对齐分别在解决什么问题

建议复习顺序

  1. Transformer 与自注意力(架构基础)
  2. Token、上下文窗口与推理过程(工作机制)
  3. 温度、top-p、max tokens 等参数(输出控制)
  4. 训练、微调与对齐(训练机制)
  5. 幻觉与能力边界(应用边界)

子主题导航

高频追问

  • 大模型为什么会幻觉
  • 训练和推理的关注点有什么不同
  • 为什么上下文越长不一定越好
  • 不同规模的模型如何选择采样参数
  • 为什么同样的prompt不同模型效果不同
  • Token 为什么会成为成本和架构约束
  • SFT 和 RLHF 为什么不能混成一个概念

易错点

  • 把”知道很多”理解成”事实正确”
  • 只会背参数名字,不会讲参数之间的联动
  • 混淆模型能力问题和采样策略问题
  • 认为模型可以完全理解人类意图

学习策略

记忆技巧

Transformer核心

  • 自注意力 = 每个token看所有token
  • 多头机制 = 并行多个注意力头
  • 位置编码 = 保留序列顺序信息

采样参数

  • 温度 = 控制随机性
  • top-p = 概率质量限制
  • max tokens = 长度成本控制

关联学习

LLM基础与后面的应用专题紧密相关:

  1. Prompt工程:依赖对模型工作机制的理解
  2. RAG系统:解决幻觉和上下文限制
  3. Agent设计:利用模型推理能力
  4. 性能优化:平衡质量与成本