🧠AI 部署与项目实战

安全与 Guardrails

面试回答

常见问法

  • LLM 应用有哪些典型攻击面?
  • Prompt Injection 有哪几类?分别怎么防?
  • 怎么做输入输出内容审核?
  • Jailbreak 和 Prompt Leak 区别是什么?

回答

待补充:按「输入侧 / 模型侧 / 输出侧」三道防线讲清楚,重点突出「不能只靠 system prompt 兜底」。

追问

  • 间接 Prompt Injection(网页内容、邮件、文档)怎么防?
  • 怎么防止 system prompt 泄漏?
  • 工具权限越权怎么控制?
  • PII / 敏感词 / 有害内容分类器怎么接入?

原理展开

  • 攻击面:直接注入、间接注入、越狱、越权调用工具、模型输出泄漏、训练数据污染
  • 三道防线:
    • 输入侧:内容分类、PII 脱敏、指令拆分、上下文签名
    • 模型侧:system prompt 加固、工具白名单、人类确认
    • 输出侧:结构校验、敏感词过滤、PII 检测、幻觉检测
  • 工具:Llama Guard、NeMo Guardrails、Lakera、自建分类器
  • 设计原则:最小权限、纵深防御、失败静默不回显

易错点

  • 只在 system prompt 里写「不要泄漏」,攻击者一句「忽略上面」就穿透
  • 工具不分权限级别,LLM 直接能调删除
  • 输出未做结构校验,注入 HTML/脚本直接渲染
  • 不记录攻击日志,没法复盘

记忆技巧

  • 三道防线:输入 / 模型 / 输出
  • 最小权限:能只读不可写,能查询不可操作
  • 防注入口诀:不信任外部输入、不在系统提示里藏秘密