🧠
LLM 基础
7 篇文章
查看专题概览 / 复习建议
核心问题
- 大模型和传统机器学习模型的核心差别是什么
- Transformer 为什么成为主流架构
- 采样参数会怎么影响输出结果
- 上下文窗口、成本和延迟之间如何权衡
- 为什么会出现”幻觉”现象
- 模型能力的边界在哪里
- Token 是怎么影响成本、截断和系统设计的
- 预训练、SFT、RLHF/对齐分别在解决什么问题
建议复习顺序
- Transformer 与自注意力(架构基础)
- Token、上下文窗口与推理过程(工作机制)
- 温度、top-p、max tokens 等参数(输出控制)
- 训练、微调与对齐(训练机制)
- 幻觉与能力边界(应用边界)
子主题导航
- Transformer与自注意力.md
- 采样参数与输出控制.md
- Token与上下文窗口.md
- 训练微调与对齐.md
- LoRA与PEFT微调.md
- 多模态与VisionLLM.md
- 幻觉与能力边界.md
高频追问
- 大模型为什么会幻觉
- 训练和推理的关注点有什么不同
- 为什么上下文越长不一定越好
- 不同规模的模型如何选择采样参数
- 为什么同样的prompt不同模型效果不同
- Token 为什么会成为成本和架构约束
- SFT 和 RLHF 为什么不能混成一个概念
易错点
- 把”知道很多”理解成”事实正确”
- 只会背参数名字,不会讲参数之间的联动
- 混淆模型能力问题和采样策略问题
- 认为模型可以完全理解人类意图
学习策略
记忆技巧
Transformer核心:
- 自注意力 = 每个token看所有token
- 多头机制 = 并行多个注意力头
- 位置编码 = 保留序列顺序信息
采样参数:
- 温度 = 控制随机性
- top-p = 概率质量限制
- max tokens = 长度成本控制
关联学习
LLM基础与后面的应用专题紧密相关:
- Prompt工程:依赖对模型工作机制的理解
- RAG系统:解决幻觉和上下文限制
- Agent设计:利用模型推理能力
- 性能优化:平衡质量与成本