🧠

LLM 基础

8 篇文章 · 已读 0 / 8

1. Token与上下文窗口

2. Transformer与自注意力

3. LoRA 与 PEFT 微调

4. 多模态与 Vision LLM

5. 幻觉与能力边界

6. 模型选型与对比

7. 训练微调与对齐

8. 采样参数与输出控制

查看专题概览 / 复习建议

核心问题

大模型和传统机器学习模型的核心差别是什么
Transformer 为什么成为主流架构
采样参数会怎么影响输出结果
上下文窗口、成本和延迟之间如何权衡
为什么会出现”幻觉”现象
模型能力的边界在哪里
Token 是怎么影响成本、截断和系统设计的
预训练、SFT、RLHF/对齐分别在解决什么问题

建议复习顺序

Transformer 与自注意力（架构基础）
Token、上下文窗口与推理过程（工作机制）
温度、top-p、max tokens 等参数（输出控制）
训练、微调与对齐（训练机制）
幻觉与能力边界（应用边界）

子主题导航

高频追问

大模型为什么会幻觉
训练和推理的关注点有什么不同
为什么上下文越长不一定越好
不同规模的模型如何选择采样参数
为什么同样的prompt不同模型效果不同
Token 为什么会成为成本和架构约束
SFT 和 RLHF 为什么不能混成一个概念

易错点

把”知道很多”理解成”事实正确”
只会背参数名字，不会讲参数之间的联动
混淆模型能力问题和采样策略问题
认为模型可以完全理解人类意图

学习策略

记忆技巧

Transformer核心：

自注意力 = 每个token看所有token
多头机制 = 并行多个注意力头
位置编码 = 保留序列顺序信息

采样参数：

温度 = 控制随机性
top-p = 概率质量限制
max tokens = 长度成本控制

关联学习

LLM基础与后面的应用专题紧密相关：

Prompt工程：依赖对模型工作机制的理解
RAG系统：解决幻觉和上下文限制
Agent设计：利用模型推理能力
性能优化：平衡质量与成本