🧠AI 部署与项目实战
安全与 Guardrails
面试回答
常见问法
- LLM 应用有哪些典型攻击面?
- Prompt Injection 有哪几类?分别怎么防?
- 怎么做输入输出内容审核?
- Jailbreak 和 Prompt Leak 区别是什么?
回答
待补充:按「输入侧 / 模型侧 / 输出侧」三道防线讲清楚,重点突出「不能只靠 system prompt 兜底」。
追问
- 间接 Prompt Injection(网页内容、邮件、文档)怎么防?
- 怎么防止 system prompt 泄漏?
- 工具权限越权怎么控制?
- PII / 敏感词 / 有害内容分类器怎么接入?
原理展开
- 攻击面:直接注入、间接注入、越狱、越权调用工具、模型输出泄漏、训练数据污染
- 三道防线:
- 输入侧:内容分类、PII 脱敏、指令拆分、上下文签名
- 模型侧:system prompt 加固、工具白名单、人类确认
- 输出侧:结构校验、敏感词过滤、PII 检测、幻觉检测
- 工具:Llama Guard、NeMo Guardrails、Lakera、自建分类器
- 设计原则:最小权限、纵深防御、失败静默不回显
易错点
- 只在 system prompt 里写「不要泄漏」,攻击者一句「忽略上面」就穿透
- 工具不分权限级别,LLM 直接能调删除
- 输出未做结构校验,注入 HTML/脚本直接渲染
- 不记录攻击日志,没法复盘
记忆技巧
- 三道防线:输入 / 模型 / 输出
- 最小权限:能只读不可写,能查询不可操作
- 防注入口诀:不信任外部输入、不在系统提示里藏秘密