🧠AI 部署与项目实战

成本延迟与吞吐优化

面试回答

常见问法

AI 服务里的成本、延迟、吞吐为什么要一起看?

回答

因为它们通常是联动的:

  • 上更强模型,质量可能更好,但成本和延迟上升
  • 并发提高,吞吐上去了,但可能抬高失败率
  • 上长上下文,召回更全,但 token 成本和响应时间变高

所以优化不能只盯一个点,要看整体链路。

追问

  • 降延迟常见从哪几层做
  • 为什么“模型更快”不等于“端到端更快”
  • 流式输出为什么有时能明显改善体验

原理展开

AI 服务的端到端时延往往包括:

  • 请求预处理
  • 检索
  • rerank
  • 模型推理
  • 工具调用
  • 结果后处理

所以优化通常有几类:

  • 缩短上下文
  • 减少无效工具调用
  • 提前缓存 embedding / 检索结果
  • 模型分级路由
  • 流式返回首字

面试里最好避免只说“换小模型”。更成熟的表述是: “要看端到端瓶颈在哪,是检索慢、模型慢,还是工具慢,然后再决定用什么方式换质量、延迟和成本。”

易错点

  • 只盯模型响应时间,不看整个链路
  • 只看平均耗时,不看尾延迟
  • 成本优化只会想到换便宜模型

记忆技巧

记住一句: “AI 优化看全链路,不看单点跑分。”

常见三目标:

  1. 成本
  2. 延迟
  3. 吞吐