拆解大模型“越狱”攻击:对抗样本如何撕开AI安全护栏?

本文系统拆解大模型面临的越狱攻击技术,揭示攻击者如何通过巧妙设计突破AI安全限制

  • 6
  • 5
  • Werqy3
  • 发布于 2025-04-14 10:08:47
  • 阅读 ( 13231 )

以小白视角看大模型数据投毒——关于大模型数据投毒的学习心得与技巧分享

最近看到了一个有关大模型数据投毒的视频,分析了一下相关方法与技术,以一个小白的视角来分享一下学习到的心得与技巧。

  • 3
  • 2
  • 子墨
  • 发布于 2026-01-09 09:00:02
  • 阅读 ( 8615 )

都2025年了,这十大 LLM 安全工具你该关注了!

在人工智能飞速发展的今天,大型语言模型(LLMs)已经深入到我们生活的方方面面,从智能客服到内容创作,从医疗诊断到金融分析,它们的身影无处不在。然而,随着 LLMs 的广泛应用,其安全性问题也日益凸显。数据泄露、未经授权的访问、模型被恶意操纵……这些风险不仅威胁到企业的正常运营,还可能对用户隐私和社会稳定造成严重影响。今天,就让我们一起走进 LLM 安全的世界,看看那些在 2025年值得关注的安全工具,它们是如何为 LLMs 筑起坚固的安全防线的。

  • 3
  • 0
  • Halo咯咯
  • 发布于 2025-04-22 09:44:41
  • 阅读 ( 7120 )

基于AI的智能目录扫描与敏感信息收集工具开发

在某互联网大厂工作时做了一些AI相关的安全赋能工作,学习了MCP开发与安全赋能的技术知识,结合个人能力与网上学习的技术文章知识,开发了一款"MCP-Finder"创新的网络安全扫描工具,将传统目录扫描技术与现代AI大模型分析能力相结合,通过MCP协议中的streamable-http进行接入,为安全研究人员提供了更智能、更高效的漏洞发现解决方案(

  • 5
  • 5
  • Bear001
  • 发布于 2025-08-14 10:00:02
  • 阅读 ( 7041 )

浅谈AI部署场景下的web漏洞

总结了一些部署过程中出现可能的漏洞点位,并且分析了对应的攻防思路

  • 2
  • 0
  • 7ech_N3rd
  • 发布于 2025-04-09 17:30:36
  • 阅读 ( 6752 )

我用MCP开发了一个AI目录扫描分析工具

本工具结合了当下的MCP协议中sse方案,给传统的目录扫描工具dirsearch对接上了AI大模型,并对扫描结果进行数据筛选及深度分析并输出漏洞报告。

  • 6
  • 6
  • Elite
  • 发布于 2025-04-29 10:00:00
  • 阅读 ( 6727 )

网络安全大模型微调:红队大模型

上篇文章中我们已经基本了解了微调一个基座大模型的流程,本文我们将集中于微调出一个实际的安全大模型。 因此首先有必要必要了解微调出一个安全大模型存在的难点

  • 4
  • 0
  • elwood1916
  • 发布于 2025-05-23 09:00:02
  • 阅读 ( 6716 )

vulnhuntr: LLM与SAST结合的AI产品漏洞自动化挖掘

通过结合静态代码分析和大语言模型(LLM)的方式来批量检测AI产品中的潜在漏洞

  • 2
  • 0
  • leeh
  • 发布于 2025-04-27 09:43:38
  • 阅读 ( 6091 )

多智能体系统安全危机:从通信劫持到数据投毒,AI协作背后的隐患

在当今数字化浪潮中,多智能体系统(MAS)正逐渐成为解决问题的新范式。想象一下,一群由大型语言模型(LLM)驱动的智能体,它们各司其职,却又紧密协作,共同完成复杂的任务。这种系统不仅高效、可扩展性强,还能够像人类团队一样灵活应对各种挑战。然而,正如硬币的两面,这些强大的功能也带来了独特的安全风险。

  • 0
  • 1
  • Halo咯咯
  • 发布于 2025-04-25 09:33:57
  • 阅读 ( 6088 )

ai红队之路探索

AI Red Teaming是模拟针对AI系统的对抗性攻击的实践,旨在恶意行为者之前主动识别漏洞,潜在的误用场景和故障模式。

  • 1
  • 0
  • 逍遥~
  • 发布于 2025-06-04 10:00:00
  • 阅读 ( 5618 )

多语言和多口音音频大型语言模型的越狱攻击

本文将深入探讨多语言音频模型在实际应用中面临的安全挑战,特别是音频越狱攻击的机制与影响。我们将学习攻击者如何利用模型的漏洞,通过精心设计的音频输入绕过安全机制,诱导模型生成不当内容。

  • 0
  • 0
  • Werqy3
  • 发布于 2025-04-28 09:00:02
  • 阅读 ( 5322 )

提示词注入实战—通过在线靶场看提示词注入手法

本文通过一个在线靶场,希望帮助大家更好的理解提示词注入的相关手法。这个靶场拿来练习也是很不错的,尤其是现在的AI靶场很少,像经常使用的那些又修复的很快。

AI红队实践学习路线

AI红队实践学习路线 1.人工智能基础 从工程师视角出发,代码驱动,系统思考 这个阶段不仅是学习算法,更是建立一套工程化的思维习惯。你写的每一行代码,都应思考其在整个系统中的位置。一个AI...

  • 3
  • 1
  • 洺熙
  • 发布于 2025-07-04 16:14:58
  • 阅读 ( 5179 )

多智能体系统(MAS):如何让AI团队协作解决复杂问题?

你有没有想过,世界上最复杂的问题,可能并不是靠单一的力量解决,而是通过一群智能体的协作来完成?**多智能体系统(Multi-Agent System, MAS)**正是这样一种技术框架,它允许多个独立的智能体(Agents)通过协作、思考和适应,共同完成复杂任务。

  • 0
  • 1
  • Halo咯咯
  • 发布于 2025-05-06 09:00:03
  • 阅读 ( 5165 )

大模型安全之数据投毒

数据投毒是针对模型训练阶段的攻击,通过向训练数据注入有害样本或篡改样本标签/特征,改变模型学习到的映射,从而在部署后降低模型性能或触发预设行为

  • 0
  • 0
  • 洺熙
  • 发布于 2025-08-21 10:02:08
  • 阅读 ( 5137 )

AI 时代的 mcp 攻防探讨

模型上下文协议(Model Context Protocol, MCP)是一种用于在分布式系统中管理和共享模型上下文的协议,广泛应用于机器学习、区块链和物联网等领域。然而,随着MCP的广泛应用,其安全性问题也日益凸显。

  • 0
  • 0
  • 逍遥~
  • 发布于 2025-06-10 09:00:03
  • 阅读 ( 5071 )

MCP安全攻防技艺(一)

在某互联网大厂工作时做了一些AI相关的安全研究工作,研究了MCP与安全的应用以及MCP本身的安全,本文为MCP应用与安全开篇,带读者深入研究MCP攻防,探讨MCP的核心机制及安全挑战。

  • 1
  • 2
  • Bear001
  • 发布于 2025-08-13 09:38:49
  • 阅读 ( 5001 )

基于嵌入扰动的大模型白盒越狱攻击

大模型(以下均用LLMs指代)发展迅速,但引发了大家对其潜在滥用的担忧。虽然模型开发者进行了大量安全对齐工作,以防止 LLMs 被用于有害活动,但这些努力可被多种攻击方法破解,典型的就是在社区里多篇文章中一直在强调的越狱攻击。这些攻击方法能找出安全对齐技术的漏洞,促使开发者及时修复,降低 LLMs 带来的安全风险

  • 0
  • 0
  • elwood1916
  • 发布于 2025-04-24 09:39:13
  • 阅读 ( 4873 )

大模型投毒-训练、微调、供应链与RAG解析

人工智能系统的安全范式正从外部防御转向保障其内在的认知完整性。攻击通过污染训练数据、在微调阶段植入后门、利用供应链漏洞以及在推理时注入恶意上下文,旨在从根本上破坏模型的可靠性与安全性

  • 1
  • 1
  • 洺熙
  • 发布于 2025-09-04 09:00:02
  • 阅读 ( 4807 )

基于概念擦除的AIGC防侵权技术

最近的文生图模型因为卓越的图像质量和看似无限的生成能力而受到关注。最近出圈,可能是因为openai的模型可以将大家的图像转变为吉卜力风格。

  • 0
  • 0
  • elwood1916
  • 发布于 2025-05-12 10:14:50
  • 阅读 ( 4793 )