🧠AI 部署与项目实战

安全与 Guardrails

面试回答

常见问法

LLM 应用有哪些典型攻击面?
Prompt Injection 有哪几类?分别怎么防?
怎么做输入输出内容审核?
Jailbreak 和 Prompt Leak 区别是什么?

回答

待补充:按「输入侧 / 模型侧 / 输出侧」三道防线讲清楚,重点突出「不能只靠 system prompt 兜底」。

追问

间接 Prompt Injection(网页内容、邮件、文档)怎么防?
怎么防止 system prompt 泄漏?
工具权限越权怎么控制?
PII / 敏感词 / 有害内容分类器怎么接入?

原理展开

攻击面:直接注入、间接注入、越狱、越权调用工具、模型输出泄漏、训练数据污染
三道防线:
- 输入侧:内容分类、PII 脱敏、指令拆分、上下文签名
- 模型侧:system prompt 加固、工具白名单、人类确认
- 输出侧:结构校验、敏感词过滤、PII 检测、幻觉检测
工具:Llama Guard、NeMo Guardrails、Lakera、自建分类器
设计原则:最小权限、纵深防御、失败静默不回显

易错点

只在 system prompt 里写「不要泄漏」,攻击者一句「忽略上面」就穿透
工具不分权限级别,LLM 直接能调删除
输出未做结构校验,注入 HTML/脚本直接渲染
不记录攻击日志,没法复盘

记忆技巧

三道防线:输入 / 模型 / 输出
最小权限:能只读不可写,能查询不可操作
防注入口诀:不信任外部输入、不在系统提示里藏秘密