🧠AI 部署与项目实战
多模型路由与 Fallback
面试回答
常见问法
- 为什么线上要用多个模型而不是一个?
- 怎么做模型路由(routing)?
- 降级 / fallback 策略怎么设计?
- 成本和质量怎么做动态 tradeoff?
回答
待补充:主线是「同一个入口,按任务复杂度、成本预算、可用性分流到不同模型」,不要停留在 A/B 测试层面。
追问
- 路由决策在哪一层做?LLM 路由器 vs 规则路由器?
- Fallback 链路怎么判断「需要降级」?
- 模型厂商限流/宕机时怎么优雅切换?
- 成本感知的路由(cost-aware routing)怎么实现?
原理展开
- 路由策略:
- 规则路由:按 token 长度、任务类型
- 分类路由:小模型先分类,大模型处理复杂样本
- 级联路由:小模型先答,置信度低再上大模型
- Embedding 路由:按语义相似度分发
- Fallback 链:主模型 → 备用厂商 → 降级小模型 → 缓存/固定回复
- 熔断:连续失败 N 次触发熔断,半开试探恢复
- 成本控制:预算用尽自动降级
易错点
- 把路由层做得比业务还复杂,维护成本爆炸
- Fallback 切到不同厂商后格式/能力差异没适配
- 降级回退后没打埋点,看不出降级频率
- 级联路由没控延迟,小模型+大模型叠加比直接大模型还慢
记忆技巧
- 四类路由:规则 / 分类 / 级联 / 语义
- Fallback 链:主 → 备 → 小 → 兜底
- 熔断口诀:连续失败熔断,慢半开,再全开