AI 人工智能 - 推荐的文章 - 奇安信攻防社区

通过微调与拒绝向量消融实现大模型越狱的实践

AI突破限制的多种手段前言：目前看到过很多越狱AI的手法，绝大多数都是使用提示词注入来对互联网上现有AI进行越狱，本文章中介绍另外两个方法进行越狱。

6
7
画老师
发布于 2025-12-09 09:00:01
阅读 ( 2355 )

学习一个价值4.7w刀的提示词注入思路

去年的时候，外网上出现了一个名为Freysa AI。它旨在通过举办大模型安全赏金竞赛游戏，来吸引全球爱好者一起探索：人类的智慧能否找到一种方法说服AGI违背其核心指令？这里对解题思路进行一波学习

6
6
银空飞羽
发布于 2026-01-07 09:00:02
阅读 ( 1488 )

提示词注入实战—通过在线靶场看提示词注入手法

本文通过一个在线靶场，希望帮助大家更好的理解提示词注入的相关手法。这个靶场拿来练习也是很不错的，尤其是现在的AI靶场很少，像经常使用的那些又修复的很快。

6
6
ansdjkfasfbkas
发布于 2025-09-30 09:00:01
阅读 ( 5345 )

我用MCP开发了一个AI目录扫描分析工具

本工具结合了当下的MCP协议中sse方案，给传统的目录扫描工具dirsearch对接上了AI大模型，并对扫描结果进行数据筛选及深度分析并输出漏洞报告。

6
6
Elite
发布于 2025-04-29 10:00:00
阅读 ( 6768 )

基于AI的智能目录扫描与敏感信息收集工具开发

在某互联网大厂工作时做了一些AI相关的安全赋能工作，学习了MCP开发与安全赋能的技术知识，结合个人能力与网上学习的技术文章知识，开发了一款"MCP-Finder"创新的网络安全扫描工具，将传统目录扫描技术与现代AI大模型分析能力相结合，通过MCP协议中的streamable-http进行接入，为安全研究人员提供了更智能、更高效的漏洞发现解决方案（

5
5
Bear001
发布于 2025-08-14 10:00:02
阅读 ( 7086 )

拆解大模型“越狱”攻击：对抗样本如何撕开AI安全护栏？

本文系统拆解大模型面临的越狱攻击技术，揭示攻击者如何通过巧妙设计突破AI安全限制

6
5
Werqy3
发布于 2025-04-14 10:08:47
阅读 ( 13304 )

破译之眼：AI重构前端渗透对抗新范式

利用AI一键对抗前端js的可用解决方案，省去以往调试时间，高效对抗js加密或sign校验等

4
3
逐影安全
发布于 2025-06-17 09:00:00
阅读 ( 4114 )

基于强化学习生成恶意攻击xss

本文提出了一种基于DQN强化学习的XSS载荷自动生成方法，通过神经网络替代Q表格，结合经验回放和目标网络优化训练。系统包含特征提取（257维向量）、WAF检测（正则规则）和免杀变形（6种字符级操作）三大模块，在Gym框架下实现智能体与WAF的对抗训练。实验表明，经过100轮训练后，智能体可生成有效绕过WAF的XSS载荷，为AI驱动的Web安全测试提供了新思路。

4
3
1gniT42e
发布于 2025-05-21 09:00:00
阅读 ( 4418 )

以小白视角看大模型数据投毒——关于大模型数据投毒的学习心得与技巧分享

最近看到了一个有关大模型数据投毒的视频，分析了一下相关方法与技术，以一个小白的视角来分享一下学习到的心得与技巧。

4
2
子墨
发布于 2026-01-09 09:00:02
阅读 ( 9835 )

一文了解图像的隐形噪声如何欺骗 AI

对抗图像是一种精心设计的输入数据，通过对原始图像进行细微修改，使机器学习模型（尤其是深度神经网络）产生错误的分类输出。

2
2
Wh1tecell
发布于 2025-10-24 09:00:02
阅读 ( 2450 )

【补天白帽黑客城市沙龙-杭州站】如何训练AI帮我调漏洞

本议题将探讨如何结合大模型与MCP技术，实现对程序的静态分析、动态调试。基于这些技术，可以让AI参与漏洞研究,提升漏洞挖掘效率,并配合实际案例，展示AI在漏洞方面的工作能力。

3
2
奇安信攻防社区
发布于 2025-08-13 18:19:36
阅读 ( 3829 )

MCP安全攻防技艺（一）

在某互联网大厂工作时做了一些AI相关的安全研究工作，研究了MCP与安全的应用以及MCP本身的安全，本文为MCP应用与安全开篇，带读者深入研究MCP攻防，探讨MCP的核心机制及安全挑战。

1
2
Bear001
发布于 2025-08-13 09:38:49
阅读 ( 5025 )

【2025补天白帽黑客盛典】当AI成为自己的红队：自动化越狱样本构造方法

当大模型深度融入社会运转，其安全边界正面临前所未有的挑战越狱攻击通过精心构造的提示词，可绕过安全限制诱导模型生成有害内容。传统人工构造样本效率低下，而让AI成为自身的红队，正是破解这一困境的创新路径。本议题系统阐述四层自动化越狱样本构造体系:从基础规则化批量生成,到 AI自主创新,再到学术前沿复现与动态定制化生成。

1
1
奇安信攻防社区
发布于 2025-12-30 11:13:32
阅读 ( 961 )

【2025补天白帽黑客盛典】木马藏在权重里：大模型攻击链的越狱、投毒、对抗样本与 ROP 链的连环戏法

本议题提出「权重寄生攻击链」核心框架以大模型权重为寄生载体，通过"入口突破一威胁潜伏一伪装掩护一终极爆发"的闭环传导，将文本越狱、模型投毒、对抗样本、OllamaROP链四类攻击串联的完整威胁链路，打破单一攻击场景的孤立认知，揭示大模型从上层语义到底层系统的全维度安全风险。

2
1
奇安信攻防社区
发布于 2025-12-30 10:55:19
阅读 ( 742 )

AI 供应链安全：MCP 协议下自动化 AI 架构中的隐式执行风险实测

随着大语言模型（LLM）从单纯对话向自动化执行演进， MCP (Model Context Protocol) 协议正迅速成为连接模型大脑与外部工具（文件、数据库、API）的标准“USB接口”。然而，这种高度集成的架构也引入了一个AI隐式执行的风险。不同于传统的前端提示词注入，基于 MCP 的攻击发生在系统底层的协议交互阶段。本文将通过两个小实验实测复现，演示如何通过篡改MCP工具元数据，诱导模型进入逻辑陷阱，从而实现敏感数据的静默外泄。

1
1
11123
发布于 2026-01-06 09:46:20
阅读 ( 1183 )

AI安全之间接提示词注入实现RCE(CVE-2025-53773绕过分析)

1
1
mhxiang
发布于 2025-12-29 09:45:04
阅读 ( 1259 )

第三届“天网杯” AI赛道 writeup合集

1
1
Cain
发布于 2025-12-30 09:00:01
阅读 ( 777 )

第五届“湾区杯”CTF Final - Blind writeup

本题描述了一个现实场景常见的模型：即无法采用多模态模型时，先使用ASR模型将语音转换为文字，接着调用大模型进行回答。

0
1
Cain
发布于 2025-12-31 10:00:01
阅读 ( 1257 )

黑灰产从绕过到自建“无约束”的AI模型过程

市面上主流的大模型服务，都已经建立一套相对成熟的安全架构,这套架构通常可以概括为三层过滤防御体系 1. 输入检测：在用户请求进入模型之前，通过黑白词库、正则表达式和语义分析，拦截掉那些意图明显的恶意问题。 2. 内生安全：模型本身经过安全对齐，通过指令微调和人类反馈强化学习（RLHF），让模型从价值观层面理解并拒绝执行有害指令。 3. 输出检测：在模型生成响应后，再次进行扫描，确保内容合规。。但攻击者依然在生成恶意内容、钓鱼邮件，甚至大规模恶意软件。

3
1
洺熙
发布于 2025-11-28 09:00:02
阅读 ( 2256 )

揭秘AI自动化渗透背后的迷雾

今年是Agent的主旋律，随着近期Blackhat DEFCON 以及各大赛事会议的开展，AI与安全的话题不断碰撞，在这其中，AI自动化漏洞挖掘/渗透？AI是否能代替人类安全工作人员？或安全怎么才能不被AI代替? 一直是热门的话题本文将以AI赋能安全方面，至少在明面上来说，目前产品工程与经营都比较完善的XBOW来进行分析一同观看目前AI for安全的前沿在那一步？

3
1
洺熙
发布于 2025-10-22 09:46:28
阅读 ( 4220 )