🧠AI 部署与项目实战

多模型路由与 Fallback

面试回答

常见问法

  • 为什么线上要用多个模型而不是一个?
  • 怎么做模型路由(routing)?
  • 降级 / fallback 策略怎么设计?
  • 成本和质量怎么做动态 tradeoff?

回答

待补充:主线是「同一个入口,按任务复杂度、成本预算、可用性分流到不同模型」,不要停留在 A/B 测试层面。

追问

  • 路由决策在哪一层做?LLM 路由器 vs 规则路由器?
  • Fallback 链路怎么判断「需要降级」?
  • 模型厂商限流/宕机时怎么优雅切换?
  • 成本感知的路由(cost-aware routing)怎么实现?

原理展开

  • 路由策略:
    • 规则路由:按 token 长度、任务类型
    • 分类路由:小模型先分类,大模型处理复杂样本
    • 级联路由:小模型先答,置信度低再上大模型
    • Embedding 路由:按语义相似度分发
  • Fallback 链:主模型 → 备用厂商 → 降级小模型 → 缓存/固定回复
  • 熔断:连续失败 N 次触发熔断,半开试探恢复
  • 成本控制:预算用尽自动降级

易错点

  • 把路由层做得比业务还复杂,维护成本爆炸
  • Fallback 切到不同厂商后格式/能力差异没适配
  • 降级回退后没打埋点,看不出降级频率
  • 级联路由没控延迟,小模型+大模型叠加比直接大模型还慢

记忆技巧

  • 四类路由:规则 / 分类 / 级联 / 语义
  • Fallback 链:主 → 备 → 小 → 兜底
  • 熔断口诀:连续失败熔断,慢半开,再全开