【2025补天白帽黑客盛典】当AI成为自己的红队:自动化越狱样本构造方法

当大模型深度融入社会运转,其安全边界正面临前所未有的挑战越狱攻击通过精心构造的提示词,可绕过安全限制诱导模型生成有害内容。传统人工构造样本效率低下,而让AI成为自身的红队,正是破解这一困境的创新路径。本议题系统阐述四层自动化越狱样本构造体系:从基础规则化批量生成,到 AI自主创新,再到学术前沿复现与动态定制化生成。

跨层残差绕过LLM内生安全

2025年LLM的内容安全已经有质的飞跃了,基于模型内生安全、外挂的安全审核模型、改写模型等等手段,传统的基于提示词工程的黑盒攻击逐渐难以突破愈发完善的防御机制,而白盒攻击通过直接操纵模...

  • 0
  • 3
  • Holiday
  • 发布于 2026-01-22 09:00:00
  • 阅读 ( 1205 )

第三届“天网杯” AI赛道 writeup合集

  • 1
  • 1
  • Cain
  • 发布于 2025-12-30 09:00:01
  • 阅读 ( 1155 )

【2025补天白帽黑客盛典】木马藏在权重里:大模型攻击链的越狱、投毒、对抗样本与 ROP 链的连环戏法

本议题提出「权重寄生攻击链」核心框架以大模型权重为寄生载体,通过"入口突破一威胁潜伏一伪装掩护一终极爆发"的闭环传导,将文本越狱、模型投毒、对抗样本、OllamaROP链四类攻击串联的完整威胁链路,打破单一攻击场景的孤立认知,揭示大模型从上层语义到底层系统的全维度安全风险。

Ai安全漏洞剖析-CVE-2025-68664

LangChain 是一个用于构建基于ai大语言模型(LLM)应用程序的框架。在受影响版本中,存在序列化注入漏洞。

  • 0
  • 0
  • 逍遥~
  • 发布于 2026-01-23 09:00:02
  • 阅读 ( 1087 )

【2025补天白帽黑客盛典】I flip WASM bits

我们针对Blackhat ASIA 2023议题:Attacking WebAssembly Compiler of WebKit使用的方法进行了改进,对Firefox、Chrome浏览器WASM模块进行fuzz并发现了多个漏洞。我们针对其中Firefox浏览器一个典型的WASM漏洞进行了详细分析,包含Firefox的一些机制和针对WASM memory的优化,揭示了漏洞产生的本质原因:新的WASM提案和功能的实现导致一些边界检查的绕过,实现新功能时旧功能的代码修改不完全导致新漏洞的出现。

当AI被“反向操控”:图像模型反演攻击全流程揭秘

模型反演攻击(Model Inversion Attack, MIA)是机器学习隐私领域的一大隐患:攻击者仅通过访问模型输出或内部信息,就能“逆向工程”出训练数据的敏感特征。本文聚焦图像分类模型的黑白盒反演攻击,以通俗易懂的方式,从原理到代码、从实验到分析,全链路演示这一攻击的威力与风险。

  • 0
  • 0
  • Wh1tecell
  • 发布于 2026-01-26 09:00:00
  • 阅读 ( 663 )

从Prompt注入到Agent命令执行的LLM越狱技术剖析

本文立足于大模型红队攻防实战,剖析越狱攻击的技术本质——即利用模型对齐缺陷触发非预期行为。内容涵盖结构化角色嵌套(JSON)、伪代码封装(DSPy)等具体 POC 案例,并对多语言、语义反转、格式注入等攻击手法进行了分类解析。文章进一步指出,随着模型具备 API 调用与智能体能力,越狱危害已突破内容安全层面,演变为可直接操作系统的应用安全风险。通过对比纯文本交互、插件调用与智能体驱动三种数据流,本文揭示了从“生成有害文本”到“执行恶意代码”的攻击面升级,为构建纵深防御体系提供技术参考

  • 2
  • 0
  • 洺熙
  • 发布于 2026-01-28 09:00:02
  • 阅读 ( 578 )