LLM安全基础 在深入探讨大语言模型(LLM)的安全风险与防护策略之前,建立一个清晰、坚实的基础认知至关重要。这不仅是为了确保后续讨论的有效性,更是因为对核心术语、基本原则及其内在逻辑的...
LLM概述与全景 1 什么是 LLM? LLM是基于深度神经网络架构的预测模型。在通过在海量的语料库上进行大规模训练,学习并内化语言的统计规律,语义关联及上下文依赖, 训练目标通常是预测序列中的下...
模型上下文协议(Model Context Protocol, MCP)是一种用于在分布式系统中管理和共享模型上下文的协议,广泛应用于机器学习、区块链和物联网等领域。然而,随着MCP的广泛应用,其安全性问题也日益凸显。
AI Red Teaming是模拟针对AI系统的对抗性攻击的实践,旨在恶意行为者之前主动识别漏洞,潜在的误用场景和故障模式。
在刚刚过去的RSA大会上,AI安全领域迎来了井喷式的发展。从SIEM(安全信息与事件管理)、SOAR(安全编排自动化与响应)、ITDR(身份威胁检测与响应)到DSPM(数据安全态势管理)、红队测试和防...
之前很多研究工作已经表明,大语言模型(LLMs)的一个显著特点是它们能够通过激活中的丰富表示来处理高级概念。这一特性也使得在去年NeurIPS(人工智能顶会)上出现了很多与激活引导(activation steering)等技术的有关的工作
扩散模型的背后一个很核心的风险就是未授权数据集使用的问题。当然,这种侵权分为两种,一种是使用文生图模型得到的图像,其版权归属问题,比如之前的新闻提到,北京互联网法院全国首例“AI文生图”著作权侵权案获最高法院“两会”工作报告关注
上篇文章中我们已经基本了解了微调一个基座大模型的流程,本文我们将集中于微调出一个实际的安全大模型。 因此首先有必要必要了解微调出一个安全大模型存在的难点
最近的文生图模型因为卓越的图像质量和看似无限的生成能力而受到关注。最近出圈,可能是因为openai的模型可以将大家的图像转变为吉卜力风格。
在传统系统安全中有一个典型的技术—影子栈(shadow stacks),它可以防御内存溢出攻击。那么类似于影子栈创建一个影子内存空间,如果可以正常栈中建立与目标LLM实例(LLMtarget)并行的影子LLM防御实例(LLMdefense),那理论上就是可以实现防御的
通过结合静态代码分析和大语言模型(LLM)的方式来批量检测AI产品中的潜在漏洞
本文将深入探讨多语言音频模型在实际应用中面临的安全挑战,特别是音频越狱攻击的机制与影响。我们将学习攻击者如何利用模型的漏洞,通过精心设计的音频输入绕过安全机制,诱导模型生成不当内容。
大模型(以下均用LLMs指代)发展迅速,但引发了大家对其潜在滥用的担忧。虽然模型开发者进行了大量安全对齐工作,以防止 LLMs 被用于有害活动,但这些努力可被多种攻击方法破解,典型的就是在社区里多篇文章中一直在强调的越狱攻击。这些攻击方法能找出安全对齐技术的漏洞,促使开发者及时修复,降低 LLMs 带来的安全风险
在人工智能飞速发展的今天,大型语言模型(LLMs)已经深入到我们生活的方方面面,从智能客服到内容创作,从医疗诊断到金融分析,它们的身影无处不在。然而,随着 LLMs 的广泛应用,其安全性问题也日益凸显。数据泄露、未经授权的访问、模型被恶意操纵……这些风险不仅威胁到企业的正常运营,还可能对用户隐私和社会稳定造成严重影响。今天,就让我们一起走进 LLM 安全的世界,看看那些在 2025年值得关注的安全工具,它们是如何为 LLMs 筑起坚固的安全防线的。
演讲议题:AIGC安全实践 –– AI Red Teaming
在人工智能飞速发展的今天,我们已经习惯了与各种智能系统打交道,从聊天机器人到智能搜索引擎,它们似乎无处不在。但你有没有想过,这些系统是如何真正理解我们的需求,并给出准确回答的呢?今天,就让我们一起深入探索一下前沿的RAG(Retrieval-Augmented Generation,检索增强生成)技术,看看它如何让AI变得更“聪明”。
总结了一些部署过程中出现可能的漏洞点位,并且分析了对应的攻防思路