基于条件干预的大模型推理时防御

之前很多研究工作已经表明,大语言模型(LLMs)的一个显著特点是它们能够通过激活中的丰富表示来处理高级概念。这一特性也使得在去年NeurIPS(人工智能顶会)上出现了很多与激活引导(activation steering)等技术的有关的工作

0 条评论

请先 登录 后评论
elwood1916
elwood1916

29 篇文章