从Prompt注入到Agent命令执行的LLM越狱技术剖析

本文立足于大模型红队攻防实战,剖析越狱攻击的技术本质——即利用模型对齐缺陷触发非预期行为。内容涵盖结构化角色嵌套(JSON)、伪代码封装(DSPy)等具体 POC 案例,并对多语言、语义反转、格式注入等攻击手法进行了分类解析。文章进一步指出,随着模型具备 API 调用与智能体能力,越狱危害已突破内容安全层面,演变为可直接操作系统的应用安全风险。通过对比纯文本交互、插件调用与智能体驱动三种数据流,本文揭示了从“生成有害文本”到“执行恶意代码”的攻击面升级,为构建纵深防御体系提供技术参考

  • 2
  • 0
  • 洺熙
  • 发布于 2026-01-28 09:00:02
  • 阅读 ( 575 )

当AI被“反向操控”:图像模型反演攻击全流程揭秘

模型反演攻击(Model Inversion Attack, MIA)是机器学习隐私领域的一大隐患:攻击者仅通过访问模型输出或内部信息,就能“逆向工程”出训练数据的敏感特征。本文聚焦图像分类模型的黑白盒反演攻击,以通俗易懂的方式,从原理到代码、从实验到分析,全链路演示这一攻击的威力与风险。

  • 0
  • 0
  • Wh1tecell
  • 发布于 2026-01-26 09:00:00
  • 阅读 ( 660 )

Ai安全漏洞剖析-CVE-2025-68664

LangChain 是一个用于构建基于ai大语言模型(LLM)应用程序的框架。在受影响版本中,存在序列化注入漏洞。

  • 0
  • 0
  • 逍遥~
  • 发布于 2026-01-23 09:00:02
  • 阅读 ( 1086 )

跨层残差绕过LLM内生安全

2025年LLM的内容安全已经有质的飞跃了,基于模型内生安全、外挂的安全审核模型、改写模型等等手段,传统的基于提示词工程的黑盒攻击逐渐难以突破愈发完善的防御机制,而白盒攻击通过直接操纵模...

  • 0
  • 3
  • Holiday
  • 发布于 2026-01-22 09:00:00
  • 阅读 ( 1202 )

补齐SDLC最后一块拼图:LLM 在应用安全中的实践探索

随着DevSecOps的推进,应用安全已逐步融入SDLC各阶段,一个长期存在的问题依然突出:安全工具往往能发现问题,却难以判断其真实性、可利用性及处置优先级。这些持续消耗研发与安全团队的时间精力。近年来随着大语言模型的迅速发展,为这一困境提供了新的可能,本文结合实际应用安全建设经验,重点探讨AI在硬编码、SCA、漏洞挖掘等场景中的应用安全实践方法。

  • 2
  • 1
  • hyyrent
  • 发布于 2026-01-21 09:00:01
  • 阅读 ( 1639 )

KV-Cache:大语言模型推理加速的双刃剑—隐私风险与防御实战

在2025年,大语言模型(LLM)推理服务已全面进入多租户时代,KV Cache作为核心加速技术,让Prefill阶段并行计算、Decode阶段复用历史键值,带来5–8倍的吞吐提升。然而,这把“双刃剑”也暴露了严重的安全隐患:共享缓存下的时序侧信道可直接泄露用户Prompt;更隐蔽的History Swapping能悄无声息劫持输出话题;腐败攻击则通过扰动Key向量引发幻觉与性能崩坏。

  • 0
  • 0
  • Wh1tecell
  • 发布于 2026-01-20 09:00:02
  • 阅读 ( 1624 )

重塑传统自动化漏洞挖掘的Multi-Agent框架攻防一体化实践

前段时间在某大厂做安全研究时,针对SDLC的重复性审计工作结合大模型Agent思索了一些可行的思路,便在不断摸索中构建了一个Multi-Agent的协同漏洞挖掘框架系统,目前个人使用来看对于开源的web应用的实战效果相比传统的SAST、DAST以及纯LLM的漏洞挖掘工具来说还是很不错的,便记录此篇框架实现思路和当今Agent赋能漏挖的可行性与优势供师傅们交流指点....

  • 3
  • 2
  • Bear001
  • 发布于 2026-01-19 10:00:01
  • 阅读 ( 2088 )

还能这样对大模型输入投毒

对protswigger的第三个大模型prompt注入靶场进行实战记录

深度实例分析:攻防视角下的AI框架组件中的注入漏洞

在从事了一段时间对AI框架组件的安全审计研究后,也挖掘到了很多相似的注入漏洞,对于目前的AI框架组件(PandasAI,LlamaIndx,Langchain...)对于该类型漏洞的通病结合实战实例以及学术界的研究做了系统性的归纳,站在AI框架的顶层角度对该类AI框架组件中的注入漏洞进行研究分析,供师傅们交流指点...

  • 1
  • 0
  • Bear001
  • 发布于 2026-01-14 09:47:32
  • 阅读 ( 2336 )

基于“灰盒”蒸馏的大语言模型攻击研究

探讨一种结合模型窃取与拒绝服务攻击的组合路径,希望发现AI安全领域新型攻击思路。

  • 1
  • 3
  • 画老师
  • 发布于 2026-01-12 10:03:41
  • 阅读 ( 2623 )

以小白视角看大模型数据投毒——关于大模型数据投毒的学习心得与技巧分享

最近看到了一个有关大模型数据投毒的视频,分析了一下相关方法与技术,以一个小白的视角来分享一下学习到的心得与技巧。

  • 8
  • 6
  • 子墨
  • 发布于 2026-01-09 09:00:02
  • 阅读 ( 12406 )

从某BAT大厂开源框架实战审计揭秘 LLM 集成框架中的隐蔽加载漏洞

最近在研究LLM集成应用框架时,在审计某BAT大厂的github18k大型开源LLM集成应用框架项目时发现了一处隐蔽的加载漏洞,虽然开发者打过了防御补丁,但仍然可进行绕过并已提交CVE。遂深入进行了该类型的漏洞在LLM集成应用框架中的探究,供师傅们交流指点...

  • 1
  • 0
  • Bear001
  • 发布于 2026-01-08 09:00:02
  • 阅读 ( 3384 )

学习一个价值4.7w刀的提示词注入思路

去年的时候,外网上出现了一个名为Freysa AI。它旨在通过举办大模型安全赏金竞赛游戏,来吸引全球爱好者一起探索:人类的智慧能否找到一种方法说服AGI违背其核心指令?这里对解题思路进行一波学习

AI 供应链安全:MCP 协议下自动化 AI 架构中的隐式执行风险实测

随着大语言模型(LLM)从单纯对话向自动化执行演进, MCP (Model Context Protocol) 协议正迅速成为连接模型大脑与外部工具(文件、数据库、API)的标准“USB接口”。然而,这种高度集成的架构也引入了一个AI隐式执行的风险。不同于传统的前端提示词注入,基于 MCP 的攻击发生在系统底层的协议交互阶段。本文将通过两个小实验实测复现,演示如何通过篡改MCP工具元数据,诱导模型进入逻辑陷阱,从而实现敏感数据的静默外泄。

  • 1
  • 2
  • 11123
  • 发布于 2026-01-06 09:46:20
  • 阅读 ( 2006 )

第五届“湾区杯”CTF Final - Blind writeup

本题描述了一个现实场景常见的模型:即无法采用多模态模型时,先使用ASR模型将语音转换为文字,接着调用大模型进行回答。

  • 0
  • 2
  • Cain
  • 发布于 2025-12-31 10:00:01
  • 阅读 ( 1773 )

第五届“湾区杯”CTF Final - 耄耋 writeup

本题给出了数千张小猫的图片,数据分为两类:AI生成和人工拍摄,期望选手对数据完成区分,即完成人工智能生成图片伪造检测技术。

  • 0
  • 2
  • Cain
  • 发布于 2025-12-31 09:00:02
  • 阅读 ( 1692 )

【2025补天白帽黑客盛典】当AI成为自己的红队:自动化越狱样本构造方法

当大模型深度融入社会运转,其安全边界正面临前所未有的挑战越狱攻击通过精心构造的提示词,可绕过安全限制诱导模型生成有害内容。传统人工构造样本效率低下,而让AI成为自身的红队,正是破解这一困境的创新路径。本议题系统阐述四层自动化越狱样本构造体系:从基础规则化批量生成,到 AI自主创新,再到学术前沿复现与动态定制化生成。

【2025补天白帽黑客盛典】木马藏在权重里:大模型攻击链的越狱、投毒、对抗样本与 ROP 链的连环戏法

本议题提出「权重寄生攻击链」核心框架以大模型权重为寄生载体,通过"入口突破一威胁潜伏一伪装掩护一终极爆发"的闭环传导,将文本越狱、模型投毒、对抗样本、OllamaROP链四类攻击串联的完整威胁链路,打破单一攻击场景的孤立认知,揭示大模型从上层语义到底层系统的全维度安全风险。

【2025补天白帽黑客盛典】I flip WASM bits

我们针对Blackhat ASIA 2023议题:Attacking WebAssembly Compiler of WebKit使用的方法进行了改进,对Firefox、Chrome浏览器WASM模块进行fuzz并发现了多个漏洞。我们针对其中Firefox浏览器一个典型的WASM漏洞进行了详细分析,包含Firefox的一些机制和针对WASM memory的优化,揭示了漏洞产生的本质原因:新的WASM提案和功能的实现导致一些边界检查的绕过,实现新功能时旧功能的代码修改不完全导致新漏洞的出现。

【2025补天白帽黑客盛典】大模型时代的移动端攻防:基于LLM的App漏洞挖掘

本议题将分享一种基于LLM Agent的App漏洞挖掘。通过引入MCP方式,结合精细化的Prompt工程与工作流编排,将复杂的挖洞过程拆解为可控的原子任务。将展示如何使用LLM强大的代码审计能力,实现对App隐蔽漏洞的高效、精准捕获。