LLM如何安全对齐(基础篇)

AI对齐旨在确保AI系统,其能力与行为同人类的价值观,意图及伦理规范保持一致 本文将系统性梳理AI对齐的基础原则,剖析理论与算法的挑战 1.模型固有的逆向对齐趋势 2.人类偏好非传递性导致的收敛困境 3.安全保障的系统性复杂性

0 条评论

请先 登录 后评论
洺熙
洺熙

8 篇文章