🧠AI 部署与项目实战

限流缓存与重试

面试回答

常见问法

AI 服务里限流、缓存、重试为什么会被反复问？

回答

因为 AI 服务通常比普通接口更贵、更慢、波动更大。限流、缓存、重试是最基础的稳定性和成本控制手段：

限流：防止流量打爆模型服务或预算
缓存：减少重复请求和重复生成
重试：处理瞬时失败，但必须有边界

追问

哪些请求适合缓存，哪些不适合
为什么重试做不好反而会放大故障
限流应该按用户、按接口还是按租户做

原理展开

AI 场景里缓存常见对象有：

embedding 结果
检索结果
Prompt 模板渲染结果
完整问答结果

重试要特别小心，因为模型调用失败往往可能和：

上游限频
网络抖动
模型超时
下游工具不稳定

有关。不是所有失败都该立即重试。

面试里能讲清这句就很实用： “限流保护系统，缓存保护成本，重试保护可用性，但三者都必须有边界和可观测性。”

易错点

一味重试，把瞬时故障打成雪崩
缓存不做版本隔离，命中旧结果
只看 QPS，不看 token 成本和模型并发上限

记忆技巧

三件事：

限流 = 别打爆
缓存 = 别重复算
重试 = 别轻易放弃，但也别无脑重来