🧠AI LLM 基础
多模态与 Vision LLM
面试回答
常见问法
- Vision LLM(VLM)和纯文本 LLM 结构上有什么区别?
- 图像是怎么喂给大模型的?
- 为什么一张图会消耗那么多 token?
- 多模态模型的训练范式有哪些?
- 什么场景下应该用 VLM,什么场景下应该传统 OCR + 文本 LLM?
回答
待补充:从「图像编码器 + 投影层 + 文本解码器」的三段式结构讲起,强调 token 消耗计算方式、跨模态对齐的训练方式,以及现阶段的能力边界。
追问
- CLIP、BLIP、LLaVA、Qwen-VL、GPT-4V 分别代表什么路线?
- 高分辨率图像怎么处理?切 patch 还是多尺度?
- 视频输入怎么处理?每帧都编码吗?
- 图文混排输入时 token 顺序怎么排?
原理展开
- 图像编码器:ViT / CNN,输出 patch embedding
- Projector / Q-Former / Perceiver Resampler:把视觉特征映射到文本 token 空间
- Token 消耗计算:以 GPT-4V 为例,按 tile(512x512)计数
- 训练阶段:对比预训练(CLIP 式) → 视觉指令微调(LLaVA 式) → RLHF
- 多模态对齐目标:图文匹配、视觉问答、指令跟随
易错点
- 把「多模态」简单等同于「支持图片输入」,忽略音频/视频/文档
- 忽略高分辨率图像的 token 爆炸成本
- 误以为 VLM 在所有视觉任务上都强于专用模型(OCR、检测、分割)
- 用 VLM 做精确定位任务,而它的空间位置感其实有限
记忆技巧
- 三段式:编码 → 投影 → 解码
- 成本口诀:Vision token ≈ 文字 token × 图像块数
- 选型口诀:结构化场景优先 OCR+LLM,开放场景上 VLM