大模型安全:平滑方法防御越狱攻击

我们在本次文章中学习一种平滑防御方法。 这个方法基于一个直觉,即,对抗性生成的提示对字符级变化非常敏感,所以在防御时可以首先随机扰动给定输入提示的多个副本,然后聚合相应的预测以检测对抗性输入。
  • 发表于 2024-07-10 10:15:38
  • 阅读 ( 2112 )
  • 分类:其他

0 条评论

请先 登录 后评论
elwood1916
elwood1916

17 篇文章