大模型安全之数据投毒

数据投毒是针对模型训练阶段的攻击,通过向训练数据注入有害样本或篡改样本标签/特征,改变模型学习到的映射,从而在部署后降低模型性能或触发预设行为

  • 0
  • 0
  • 洺熙
  • 发布于 2025-08-21 10:02:08
  • 阅读 ( 1078 )

LLM如何安全对齐(基础篇)

AI对齐旨在确保AI系统,其能力与行为同人类的价值观,意图及伦理规范保持一致 本文将系统性梳理AI对齐的基础原则,剖析理论与算法的挑战 1.模型固有的逆向对齐趋势 2.人类偏好非传递性导致的收敛困境 3.安全保障的系统性复杂性

  • 0
  • 0
  • 洺熙
  • 发布于 2025-08-21 09:00:03
  • 阅读 ( 849 )

基于AI的智能目录扫描与敏感信息收集工具开发

在某互联网大厂工作时做了一些AI相关的安全赋能工作,学习了MCP开发与安全赋能的技术知识,结合个人能力与网上学习的技术文章知识,开发了一款"MCP-Finder"创新的网络安全扫描工具,将传统目录扫描技术与现代AI大模型分析能力相结合,通过MCP协议中的streamable-http进行接入,为安全研究人员提供了更智能、更高效的漏洞发现解决方案(

  • 4
  • 3
  • Bear001
  • 发布于 2025-08-14 10:00:02
  • 阅读 ( 1819 )

【补天白帽黑客城市沙龙-杭州站】如何训练AI帮我调漏洞

本议题将探讨如何结合大模型与MCP技术,实现对程序的静态分析、动态调试。基于这些技术,可以让AI参与漏洞研究,提升漏洞挖掘效率,并配合实际案例,展示AI在漏洞方面的工作能力。

【补天白帽黑客城市沙龙-杭州站】让安全大模型不做花瓶

本议题聚焦于面向复杂场景的模型训练与架构设计,提出多种解决方案提升模型在网络安全场景下的理解与推理能力。在此方案下的实验中,体现了自动渗透、自动修复、自动信息收集、自动打靶、参与CTF竞赛等通用能力,初步具备无需人工干预的通用执行能力。

MCP安全攻防技艺(一)

在某互联网大厂工作时做了一些AI相关的安全研究工作,研究了MCP与安全的应用以及MCP本身的安全,本文为MCP应用与安全开篇,带读者深入研究MCP攻防,探讨MCP的核心机制及安全挑战。

  • 1
  • 1
  • Bear001
  • 发布于 2025-08-13 09:38:49
  • 阅读 ( 1689 )

RAG安全攻略:揭秘检索增强生成的风险与防护之道

在人工智能(AI)的浪潮中,Retrieval-Augmented Generation(RAG,检索增强生成)无疑是一颗耀眼的新星。它让AI系统不再局限于训练时的“旧知识”,而是能从海量外部数据中实时检索相关信息,生...

  • 0
  • 0
  • Halo咯咯
  • 发布于 2025-08-11 10:00:02
  • 阅读 ( 883 )

LLM安全交叉领域与从业者技能矩阵

着大型语言模型(LLM)在商业和社会领域的广泛应用,其安全性已成为一项关键议题。本文旨在为LLM安全领域奠定基础,阐述其核心定义、原则、面临的主要威胁,并介绍相关的治理框架,以展示LLM安...

  • 1
  • 1
  • 洺熙
  • 发布于 2025-07-04 16:15:01
  • 阅读 ( 1720 )

AI红队实践学习路线

AI红队实践学习路线 1.人工智能基础 从工程师视角出发,代码驱动,系统思考 这个阶段不仅是学习算法,更是建立一套工程化的思维习惯。你写的每一行代码,都应思考其在整个系统中的位置。一个AI...

  • 1
  • 1
  • 洺熙
  • 发布于 2025-07-04 16:14:58
  • 阅读 ( 2501 )

大模型安全风险概览

理解大模型安全的全景视图 要真正掌握大模型安全,我们首先需要建立一个全景式的认知框架就像建筑师在设计摩天大楼时必须考虑地基、结构、电梯系统和消防安全一样,大模型的安全也需要从生命周...

  • 0
  • 0
  • 洺熙
  • 发布于 2025-07-04 16:14:55
  • 阅读 ( 1781 )

LLM安全基础与各厂商安全策略设计

LLM安全基础 在深入探讨大语言模型(LLM)的安全风险与防护策略之前,建立一个清晰、坚实的基础认知至关重要。这不仅是为了确保后续讨论的有效性,更是因为对核心术语、基本原则及其内在逻辑的...

  • 1
  • 0
  • 洺熙
  • 发布于 2025-07-04 16:14:51
  • 阅读 ( 1576 )

LLM概述与全景解析

LLM概述与全景 1 什么是 LLM? LLM是基于深度神经网络架构的预测模型。在通过在海量的语料库上进行大规模训练,学习并内化语言的统计规律,语义关联及上下文依赖, 训练目标通常是预测序列中的下...

  • 0
  • 0
  • 洺熙
  • 发布于 2025-07-04 16:14:46
  • 阅读 ( 1474 )

破译之眼:AI重构前端渗透对抗新范式

利用AI一键对抗前端js的可用解决方案,省去以往调试时间,高效对抗js加密或sign校验等

AI 时代的 mcp 攻防探讨

模型上下文协议(Model Context Protocol, MCP)是一种用于在分布式系统中管理和共享模型上下文的协议,广泛应用于机器学习、区块链和物联网等领域。然而,随着MCP的广泛应用,其安全性问题也日益凸显。

  • 0
  • 0
  • 逍遥~
  • 发布于 2025-06-10 09:00:03
  • 阅读 ( 2536 )

基于条件干预的大模型推理时防御

之前很多研究工作已经表明,大语言模型(LLMs)的一个显著特点是它们能够通过激活中的丰富表示来处理高级概念。这一特性也使得在去年NeurIPS(人工智能顶会)上出现了很多与激活引导(activation steering)等技术的有关的工作

  • 0
  • 0
  • elwood1916
  • 发布于 2025-06-05 09:00:00
  • 阅读 ( 1613 )

ai红队之路探索

AI Red Teaming是模拟针对AI系统的对抗性攻击的实践,旨在恶意行为者之前主动识别漏洞,潜在的误用场景和故障模式。

  • 0
  • 0
  • 逍遥~
  • 发布于 2025-06-04 10:00:00
  • 阅读 ( 2723 )

大模型应用提示词重构攻击

前言 用大模型LLM做安全业务的师傅们一定知道,提示词对于大模型在下游任务的表现的影响是很重要的。 因为大模型本质上是条件概率建模器,其输出严格依赖于输入上下文。在无监督预训练之后,这...

  • 0
  • 1
  • elwood1916
  • 发布于 2025-06-03 10:00:02
  • 阅读 ( 1840 )

2025年RSA大会:10大AI安全工具,开启智能防御新时代

在刚刚过去的RSA大会上,AI安全领域迎来了井喷式的发展。从SIEM(安全信息与事件管理)、SOAR(安全编排自动化与响应)、ITDR(身份威胁检测与响应)到DSPM(数据安全态势管理)、红队测试和防...

  • 0
  • 0
  • Halo咯咯
  • 发布于 2025-06-03 09:56:30
  • 阅读 ( 2045 )

基于注意力操纵的AIGC版权风险规避技术

扩散模型的背后一个很核心的风险就是未授权数据集使用的问题。当然,这种侵权分为两种,一种是使用文生图模型得到的图像,其版权归属问题,比如之前的新闻提到,北京互联网法院全国首例“AI文生图”著作权侵权案获最高法院“两会”工作报告关注

  • 1
  • 0
  • elwood1916
  • 发布于 2025-05-26 09:00:02
  • 阅读 ( 1546 )

网络安全大模型微调:红队大模型

上篇文章中我们已经基本了解了微调一个基座大模型的流程,本文我们将集中于微调出一个实际的安全大模型。 因此首先有必要必要了解微调出一个安全大模型存在的难点

  • 3
  • 0
  • elwood1916
  • 发布于 2025-05-23 09:00:02
  • 阅读 ( 3034 )