🧠AI 部署与项目实战
限流缓存与重试
面试回答
常见问法
AI 服务里限流、缓存、重试为什么会被反复问?
回答
因为 AI 服务通常比普通接口更贵、更慢、波动更大。限流、缓存、重试是最基础的稳定性和成本控制手段:
- 限流:防止流量打爆模型服务或预算
- 缓存:减少重复请求和重复生成
- 重试:处理瞬时失败,但必须有边界
追问
- 哪些请求适合缓存,哪些不适合
- 为什么重试做不好反而会放大故障
- 限流应该按用户、按接口还是按租户做
原理展开
AI 场景里缓存常见对象有:
- embedding 结果
- 检索结果
- Prompt 模板渲染结果
- 完整问答结果
重试要特别小心,因为模型调用失败往往可能和:
- 上游限频
- 网络抖动
- 模型超时
- 下游工具不稳定
有关。不是所有失败都该立即重试。
面试里能讲清这句就很实用: “限流保护系统,缓存保护成本,重试保护可用性,但三者都必须有边界和可观测性。”
易错点
- 一味重试,把瞬时故障打成雪崩
- 缓存不做版本隔离,命中旧结果
- 只看 QPS,不看 token 成本和模型并发上限
记忆技巧
三件事:
- 限流 = 别打爆
- 缓存 = 别重复算
- 重试 = 别轻易放弃,但也别无脑重来