🧠AI 部署与项目实战

多模型路由与 Fallback

面试回答

常见问法

为什么线上要用多个模型而不是一个?
怎么做模型路由(routing)?
降级 / fallback 策略怎么设计?
成本和质量怎么做动态 tradeoff?

回答

待补充:主线是「同一个入口,按任务复杂度、成本预算、可用性分流到不同模型」,不要停留在 A/B 测试层面。

追问

路由决策在哪一层做?LLM 路由器 vs 规则路由器?
Fallback 链路怎么判断「需要降级」?
模型厂商限流/宕机时怎么优雅切换?
成本感知的路由(cost-aware routing)怎么实现?

原理展开

路由策略:
- 规则路由:按 token 长度、任务类型
- 分类路由:小模型先分类,大模型处理复杂样本
- 级联路由:小模型先答,置信度低再上大模型
- Embedding 路由:按语义相似度分发
Fallback 链:主模型 → 备用厂商 → 降级小模型 → 缓存/固定回复
熔断:连续失败 N 次触发熔断,半开试探恢复
成本控制:预算用尽自动降级

易错点

把路由层做得比业务还复杂,维护成本爆炸
Fallback 切到不同厂商后格式/能力差异没适配
降级回退后没打埋点,看不出降级频率
级联路由没控延迟,小模型+大模型叠加比直接大模型还慢

记忆技巧

四类路由:规则 / 分类 / 级联 / 语义
Fallback 链:主 → 备 → 小 → 兜底
熔断口诀:连续失败熔断,慢半开,再全开