🧠AI LLM 基础

多模态与 Vision LLM

面试回答

常见问法

  • Vision LLM(VLM)和纯文本 LLM 结构上有什么区别?
  • 图像是怎么喂给大模型的?
  • 为什么一张图会消耗那么多 token?
  • 多模态模型的训练范式有哪些?
  • 什么场景下应该用 VLM,什么场景下应该传统 OCR + 文本 LLM?

回答

待补充:从「图像编码器 + 投影层 + 文本解码器」的三段式结构讲起,强调 token 消耗计算方式、跨模态对齐的训练方式,以及现阶段的能力边界。

追问

  • CLIP、BLIP、LLaVA、Qwen-VL、GPT-4V 分别代表什么路线?
  • 高分辨率图像怎么处理?切 patch 还是多尺度?
  • 视频输入怎么处理?每帧都编码吗?
  • 图文混排输入时 token 顺序怎么排?

原理展开

  • 图像编码器:ViT / CNN,输出 patch embedding
  • Projector / Q-Former / Perceiver Resampler:把视觉特征映射到文本 token 空间
  • Token 消耗计算:以 GPT-4V 为例,按 tile(512x512)计数
  • 训练阶段:对比预训练(CLIP 式) → 视觉指令微调(LLaVA 式) → RLHF
  • 多模态对齐目标:图文匹配、视觉问答、指令跟随

易错点

  • 把「多模态」简单等同于「支持图片输入」,忽略音频/视频/文档
  • 忽略高分辨率图像的 token 爆炸成本
  • 误以为 VLM 在所有视觉任务上都强于专用模型(OCR、检测、分割)
  • 用 VLM 做精确定位任务,而它的空间位置感其实有限

记忆技巧

  • 三段式:编码 → 投影 → 解码
  • 成本口诀:Vision token ≈ 文字 token × 图像块数
  • 选型口诀:结构化场景优先 OCR+LLM,开放场景上 VLM