🧠AI 部署与项目实战

成本延迟与吞吐优化

难度：⭐⭐ | 高频指数：🔥🔥 | 应用岗相关度：★★

面试回答

AI 服务里的成本、延迟、吞吐为什么要一起看？

因为它们通常是联动的：

所以优化不能只盯一个点，要看整体链路。

AI 服务的端到端时延往往包括：

所以优化通常有几类：

面试里最好避免只说“换小模型”。更成熟的表述是： “要看端到端瓶颈在哪，是检索慢、模型慢，还是工具慢，然后再决定用什么方式换质量、延迟和成本。”

记住一句： “AI 优化看全链路，不看单点跑分。”

常见三目标：

Related · 部署与项目实战