🧠AI LLM 基础

多模态与 Vision LLM

面试回答

常见问法

Vision LLM(VLM)和纯文本 LLM 结构上有什么区别？
图像是怎么喂给大模型的？
为什么一张图会消耗那么多 token？
多模态模型的训练范式有哪些？
什么场景下应该用 VLM,什么场景下应该传统 OCR + 文本 LLM?

回答

待补充:从「图像编码器 + 投影层 + 文本解码器」的三段式结构讲起,强调 token 消耗计算方式、跨模态对齐的训练方式,以及现阶段的能力边界。

追问

CLIP、BLIP、LLaVA、Qwen-VL、GPT-4V 分别代表什么路线?
高分辨率图像怎么处理?切 patch 还是多尺度?
视频输入怎么处理?每帧都编码吗?
图文混排输入时 token 顺序怎么排?

原理展开

图像编码器:ViT / CNN,输出 patch embedding
Projector / Q-Former / Perceiver Resampler:把视觉特征映射到文本 token 空间
Token 消耗计算:以 GPT-4V 为例,按 tile(512x512)计数
训练阶段:对比预训练(CLIP 式) → 视觉指令微调(LLaVA 式) → RLHF
多模态对齐目标:图文匹配、视觉问答、指令跟随

易错点

把「多模态」简单等同于「支持图片输入」,忽略音频/视频/文档
忽略高分辨率图像的 token 爆炸成本
误以为 VLM 在所有视觉任务上都强于专用模型(OCR、检测、分割)
用 VLM 做精确定位任务,而它的空间位置感其实有限

记忆技巧

三段式:编码 → 投影 → 解码
成本口诀:Vision token ≈ 文字 token × 图像块数
选型口诀:结构化场景优先 OCR+LLM,开放场景上 VLM