🧠AI 部署与项目实战
成本延迟与吞吐优化
面试回答
常见问法
AI 服务里的成本、延迟、吞吐为什么要一起看?
回答
因为它们通常是联动的:
- 上更强模型,质量可能更好,但成本和延迟上升
- 并发提高,吞吐上去了,但可能抬高失败率
- 上长上下文,召回更全,但 token 成本和响应时间变高
所以优化不能只盯一个点,要看整体链路。
追问
- 降延迟常见从哪几层做
- 为什么“模型更快”不等于“端到端更快”
- 流式输出为什么有时能明显改善体验
原理展开
AI 服务的端到端时延往往包括:
- 请求预处理
- 检索
- rerank
- 模型推理
- 工具调用
- 结果后处理
所以优化通常有几类:
- 缩短上下文
- 减少无效工具调用
- 提前缓存 embedding / 检索结果
- 模型分级路由
- 流式返回首字
面试里最好避免只说“换小模型”。更成熟的表述是: “要看端到端瓶颈在哪,是检索慢、模型慢,还是工具慢,然后再决定用什么方式换质量、延迟和成本。”
易错点
- 只盯模型响应时间,不看整个链路
- 只看平均耗时,不看尾延迟
- 成本优化只会想到换便宜模型
记忆技巧
记住一句: “AI 优化看全链路,不看单点跑分。”
常见三目标:
- 成本
- 延迟
- 吞吐