市面上主流的大模型服务,都已经建立一套相对成熟的安全架构,这套架构通常可以概括为三层过滤防御体系
1. 输入检测:在用户请求进入模型之前,通过黑白词库、正则表达式和语义分析,拦截掉那些意图明显的恶意问题。
2. 内生安全:模型本身经过安全对齐,通过指令微调和人类反馈强化学习(RLHF),让模型从价值观层面理解并拒绝执行有害指令。
3. 输出检测:在模型生成响应后,再次进行扫描,确保内容合规。。但攻击者依然在生成恶意内容、钓鱼邮件,甚至大规模恶意软件。
-
发表于 2025-11-28 09:00:02
- 阅读 ( 139 )
- 分类:AI 人工智能