AI 部署与项目实战

AI 项目怎么讲

难度：⭐ | 高频指数：🔥🔥🔥 | 应用岗相关度：★★★

面试回答

常见问法

简历里的 AI 项目能详细讲一下吗？
你在这个项目里具体做了什么，最难的部分是什么？
为什么选这个方案而不是别的，对比过哪些？
数据从哪来，效果怎么评估的？
上线之后遇到过什么问题，怎么解决的？
这个项目大概花了多少成本，单次调用多少钱？

回答

讲 AI 项目最容易踩的坑是——全程在说”我接了 OpenAI / LangChain / 向量库”，听完面试官会觉得这就是个调 API 的活，没有技术深度。

真正能拿分的讲法是按 STAR + 工程视角展开：背景（业务在解决什么）→ 难点（为什么不是调 API 就完事）→ 方案（你怎么设计的，对比过什么）→ 数据（哪来的、怎么标的、怎么评估的）→ 上线（链路、监控、成本）→ 反思（重做会改什么）。每一段都要有自己的判断和取舍，不是工具罗列。

工程上的判断标准是：面试官真正想问的不是”你用了什么”，而是”你为什么这么用”以及”出了问题你怎么办”。前者证明你会查文档，后者才证明你做过项目。

面试时要表现出的姿态是：对系统全链路有掌控感——检索召回率多少、Prompt 改过几版、Eval 跑了多少次、单次成本多少、P95 延迟多少——这些数字才是项目真实度的证据。

追问

这个数字（比如准确率、召回率）是怎么测出来的，测试集多大？
如果用户量翻 10 倍，你的架构哪里会先崩？
模型涨价 / 被禁用了你怎么迁移？
项目里最让你后悔的一个技术决定是什么？
团队里其他人负责什么，你具体写了哪部分代码？
这个效果跟基线（baseline / 不用 AI 的方案）比好多少？

原理展开

1. 为什么”讲项目”是面试核心

校招或社招的 AI 应用岗，面试时间常常有一半甚至更多花在项目上。原因很简单：八股可以背，项目造不了假——只要稍微追问几句，有没有真的做过、做到什么深度，立刻见分晓。

面试官在项目环节想验证三件事：

业务理解：你知不知道这个 AI 应用是给谁用、解决什么痛点、商业价值在哪
技术深度：你能不能讲出系统的关键设计、为什么这样设计、有没有别的选择
工程能力：上线了吗、效果怎么衡量、出问题怎么救、成本怎么控

只讲第一点像 PM，只讲第三点像运维，三件事都能讲清楚才是合格的应用岗工程师。

2. 项目表达的黄金结构

实战里最有效的是 5 分钟可压缩、15 分钟可展开的模板：

1. 背景（30s-1min）：业务场景 + 用户痛点 + 为什么用 AI
2. 难点（1-2min）：为什么不是调 API 就完事，技术挑战在哪
3. 方案（2-5min）：整体架构 + 关键模块 + 对比过哪些方案
4. 数据（1-2min）：数据来源、清洗、标注、Eval 集构造
5. 上线（1-2min）：部署形态、监控指标、成本、延迟
6. 反思（30s-1min）：重做会改什么、未来怎么演进

短版本先给”背景 + 方案概要 + 一个最亮的技术点 + 量化结果”，等面试官选感兴趣的追问再展开。不要一上来就 15 分钟连珠炮——面试官没耐心，也没法引导节奏。

3. “背景”段：别只讲是什么，要讲为什么

差的讲法：

我们做了一个智能客服机器人，用了 GPT-4 和 RAG。

好的讲法：

公司有 200 万 SKU 的客服场景，人工每天处理 5 万单咨询，70% 都是重复的”物流 / 退换货 / 商品参数”问题。目标是用 AI 把这 70% 自动化掉，把人工省下来处理高价值咨询。当时业界刚开始尝试 RAG，我们判断 FAQ 数据足够结构化，适合走”检索 + 生成”路线而不是 fine-tune。

差别在于：好的背景段已经隐含了技术选型的理由——为什么不是规则、为什么不是 fine-tune、为什么 RAG 合适，都铺垫好了。

4. “难点”段：避免”调了个 API”印象的关键

这一段决定面试官对项目深度的判断。要主动讲三类难点：

技术难点：检索召回率低 / Prompt 不稳定 / 长上下文成本爆炸 / Agent 卡死 / 幻觉严重
业务难点：领域术语模型不认 / 用户问题极度发散 / 多轮上下文管理 / 隐私合规
工程难点：延迟优化 / 成本控制 / 灰度发布 / Eval 体系搭建 / 线上回滚

每个难点要讲：遇到的现象 → 你怎么诊断的 → 试了哪些方案 → 最后选了什么 → 效果。

差的讲法只到第一步：“Prompt 不稳定就多试几次”——这等于没讲。好的讲法是完整链条：“最初 Prompt 在长文档场景下幻觉率 30%，我们做了 ablation 发现是 retrieval 召回了无关 chunk 导致的，于是把 chunk size 从 1000 调到 400 加 overlap，又加了 rerank 模型，最终幻觉率降到 8%。”

有过程、有数字、有结论，这才叫做过项目。

5. “方案”段：架构图 + 取舍

讲方案最好能口头描述出架构图：

用户问题 → 意图分类 → [闲聊 / FAQ / 复杂查询]
                          ↓
                      Embedding 检索（Top-20）
                          ↓
                      Rerank 模型（取 Top-3）
                          ↓
                      Prompt 拼装 + LLM 生成
                          ↓
                      Guardrail 输出校验
                          ↓
                      返回用户 + 落日志

然后讲关键取舍：

为什么用 Embedding + Rerank 两段而不是单段：单段召回精度不够，rerank 模型贵但能拉高 Top-3 准确率
为什么用 GPT-4 而不是 7B 开源：业务对准确率敏感，单条成本 0.02 美元在 ROI 内可接受
为什么意图分类用单独小模型：能挡掉 60% 的简单流量，省 LLM 成本

对比过的方案要讲，没对比过的不要硬讲——面试官一追问”你试过 X 方案没”立刻露馅。

6. “数据”段：常被忽略但极加分

应用岗很少有人主动讲数据，所以这段是差异化机会：

训练 / 微调数据：从哪来、多少条、怎么清洗、怎么标的（人工还是 LLM 蒸馏）
Eval 集：怎么构造的、多少条、覆盖哪些场景、是不是分版本管理
线上数据回流：用户反馈怎么收集（点赞点踩 / 人工抽检）、坏 case 怎么进迭代

Eval 集构造的常见路径：
1. 业务方提供典型 case（覆盖主场景）
2. 线上抽样真实问题（覆盖长尾）
3. 人工写边界 case（覆盖攻击 / 异常）
4. 模型自动生成 case（扩量）
最终 500-2000 条，按场景分桶，每次改 Prompt 都跑一遍

讲到这一层，面试官就知道你做的是工程而不是 Demo。

7. “上线”段：链路 + 监控 + 成本

这一段证明你真的把项目推到了用户面前，而不是停在 PoC。要给出的关键数字：

部署形态：单机 / K8s / Serverless，QPS 多少，P95 延迟多少
监控指标：调用成功率、Token 用量、单次成本、用户满意度
成本：日均调用次数 × 单次成本 = 月成本，对比节省的人工成本算 ROI
故障案例：模型抖动 / API 限流 / 上下文超限怎么处理的，有没有降级方案

没上线的项目也可以讲，但要诚实——讲清楚是 PoC 阶段，重点说你怎么验证方案有效、怎么估算上线后的成本和性能。诚实比包装更能拿分。

8. “反思”段：体现成长性

最容易被忽略的段落，但加分最快。模板：

“如果重做，我会先把 Eval 集建好再迭代 Prompt——当时是反过来做的，导致前两周改 Prompt 全凭感觉”
“应该早一点引入 rerank，省了至少两周的 Prompt 调优时间”
“线上才发现成本失控，事前没做单次成本预算，这块是流程上的疏漏”

敢讲缺点反而显成熟——面试官见过太多”我们做得很完美”的项目，听到真实的反思会眼前一亮。

9. 不同岗位的侧重点

讲项目不是一套讲法走天下，要根据岗位调整重心：

岗位	重点讲什么	弱化什么
应用层 / Agent 开发	Prompt 工程、工具编排、Eval、产品化	模型训练细节
RAG / 知识库	检索召回、Rerank、Chunk 策略、引用归因	Agent Loop
模型层 / 算法	fine-tune / DPO / 数据构造 / 评测	前端集成
基础设施	推理优化、vLLM、缓存、限流、成本	业务效果
全栈	端到端链路、监控、Eval、上线节奏	单点深度

面试前花 5 分钟看 JD，把项目按对应岗位重新组织一遍话术——同一个项目可以讲出三种侧重，关键是知道对方想听什么。

10. 提前准备的对照数据清单

为了不被追问问倒，每个项目至少要能脱口而出这些数字：

数据规模：训练集 / Eval 集多少条
效果指标：准确率 / 召回率 / 用户满意度 / 业务指标提升百分比
性能指标：QPS、P95 延迟、单次 Token 数
成本指标：单次调用成本、日均成本、对比基线 ROI
团队规模与你的角色：几个人、你负责哪几个模块
时间线：从立项到上线多久、迭代过几个版本

这些数字才是项目真实度的证据——背不出来的项目，面试官会自动打折。

对比总结

段落	差的讲法	好的讲法
背景	我们做了个 AI 客服	200 万 SKU、5 万单/日、70% 重复问题，AI 自动化 ROI 测算清晰
难点	用了 RAG	召回率从 60% 调到 85% 的 ablation 过程
方案	接了 LangChain	架构图 + 三个关键取舍 + 对比过的两个备选
数据	（不讲）	Eval 集 1500 条分 5 桶，每周线上回灌 50 条坏 case
上线	上线了	QPS 200、P95 1.2s、单次 0.015 美元、月成本 9000 美元
反思	没什么坑	Eval 应该先做，否则全凭感觉调 Prompt

易错点

全程在讲模型名称和框架名称——给人感觉是工具用户而非系统设计者
没有量化指标——准确率、延迟、成本一个都说不出来
没有对比基线——不知道 AI 方案比传统方案好多少，无法证明价值
过度包装——把团队成果说成个人成果，被追问”你具体写了哪部分代码”答不上来
避谈失败——所有项目都”很成功”，面试官立刻怀疑真实性
没准备时间线 / 团队规模 / 个人角色——这三个问题几乎必问
不区分 PoC 和上线——PoC 项目硬讲成线上项目，被追问监控指标就崩

记忆技巧

记两个锚点：

六段结构：背景 → 难点 → 方案 → 数据 → 上线 → 反思
一句口诀：讲项目不是讲工具，是讲”为什么这么选”和”出了问题怎么办”——前者证明你会思考，后者证明你真做过

面试速答版

讲 AI 项目我会按六段走：先用 30 秒讲业务背景和 AI 价值，再花 1-2 分钟讲技术难点（为什么不是调 API 就完事），然后 2-5 分钟讲方案架构和关键取舍（对比过哪些方案、为什么这么选），接着讲数据和 Eval 集怎么构造的，再讲上线后的 QPS / 延迟 / 成本 / 监控指标，最后用 30 秒讲如果重做会改什么。

工程上的关键认知是：面试官真正想问的不是”你用了什么”，而是”你为什么这么用”和”出了问题怎么办”。所以每个段落都要有自己的判断、量化的数字、真实的取舍，避免”我接了 OpenAI 和 LangChain”这种工具堆砌的讲法。

面试加分版

如果想多讲一层，可以补：

同一项目按岗位调整侧重：应用岗讲 Prompt 和 Eval，算法岗讲数据和微调，基础设施岗讲推理优化和成本——投不同 JD 前花 5 分钟重新组织话术
主动暴露一个真实的设计缺陷或踩坑：比”我们做得很完美”可信度高 10 倍，面试官见过太多包装项目
提前准备数字清单：数据规模、效果指标、性能指标、成本、团队规模、时间线——这六组数字脱口而出，项目真实度立刻拉满

Related · 部署与项目实战