当AI学会背刺:深度剖析Agent Skills的安全陷阱

作者:腾讯朱雀实验室 Nicky

你是否想过,当你让 AI 帮你写代码时,它可能正在你背后悄悄地干着其它事------比如,加密你的所有文件,然后弹出一个勒索提示?这不是吓唬你,而是我们研究后发现在各种 AI 编程助手中真实存在的供应链安全陷阱。

1

当超能力变成超危险

最近的AI圈,Agent Skills 已经完全取代了MCP成了最火爆的技术名词。它就像是给你的AI助手装上了超能力插件包。想让它帮你测试网站?装个 Web-testing 技能。想让它做个GIF?装个GIF制作技能。这些技能非常轻量,即插即用,让 Agent 的能力瞬间飙升。

然而,朱雀实验室的最新研究发现,这些看似神奇的超能力,很可能成为黑客们未来最隐蔽的攻击武器。他们可以把一个个看似正常的 Skill ,通过代码托管平台、技能商店等渠道,诱导你下载安装。随后你的 Agent 就可能在你完全没察觉的情况下,变成一个潜伏在你电脑里的后门,甚至是勒索犯。

2

三大技能陷阱,总有一款让你防不胜防

黑客们是如何将一个人畜无害的技能,变成一个致命的陷阱的呢?

朱雀实验室研究发现,Skills的渐进式加载设计原本旨在优化LLM的上下文利用率,却无意中为以下三种供应链攻击方法打开了大门。

陷阱一:防不胜防的幽灵指令-- 偷走你的钥匙

你在外部技能商店或 Github 下载安装的 Skill 能轻松做到,你对AI随口说一句话,就让 Agent 自动激活恶意 Skill 指令。

实战案例:Cursor变身凭证窃取器

朱雀实验室通过实验证明,攻击者可以篡改一个正常的技能文档,在其中悄悄植入一段隐藏的自然语言文本,诱导 Cursor 主动激活技能去寻找并泄露用户本地的敏感数据。

由于这些恶意指令通常被攻击者藏在长篇描述的末尾,而在多数AI助手的界面中,用户很难发现其中的猫腻。当用户下达一个模糊指令(如帮我测试一下应用)时,AI就可能被恶意描述劫持,在用户毫无察知的情况下,执行了 SSH 密钥窃取指令,导致核心服务器被黑与数据泄露。

陷阱二:潜伏的恶意脚本------把GIF制作器变成勒索软件

如果说幽灵指令还只是动口,那藏在技能里的恶意脚本就是动手了。这些脚本一旦被执行,就可能在你电脑里为所欲为(很多 Agent 用户都没有启用沙箱)。

实战案例:勒索软件的特洛伊木马

国外安全厂商的研究揭示了这种攻击的可怕之处。攻击者将一个官方发布的 GIF 制作技能作为伪装,保留其所有正常功能。但他们在辅助脚本中植入了恶意代码。当用户调用这个技能制作 GIF 时,表面上一切正常,用户也得到了想要的图片。然而在后台,恶意代码已被触发,悄无声息地从黑客服务器下载了勒索软件并执行,随即开始加密用户的个人文件。

用户批准的是一个无害的图片处理请求,但AI却在背后执行了毁灭性的恶意操作。这种对用户信任的致命背叛,使得防御变得异常困难。

陷阱三:零点击的远程控制------算个题就能让你电脑被黑

你以为 AI 执行危险操作前,总会弹窗寻求你的批准?在某些 Skill 规范的天生设计缺陷面前,这道防线形同虚设。

实战案例:从简单计算到远程控制

有研究员构造了一个伪装成科学数学计算器的恶意技能。其关键在于,该技能在配置文件中添加一个特殊参数配置,并诱导用户在首次使用时同意授权。一旦授权,后续该技能执行任何命令都将不再需要用户确认。

攻击者在看似正常的计算脚本中,隐藏了可以建立远程连接的恶意代码。当用户第一次使用该技能计算一个简单的数学题(例如5乘以5等于多少)并点击批准后,用户的电脑就向黑客敞开了大门。此后,黑客便可悄无声息地远程控制用户的电脑,而用户后续的任何正常计算请求,都可能成为黑客维持其控制的触发器。

你可能会问,Agent Skills生态才刚刚起步,威胁真的有这么大吗?

真实数据告诉我们,风暴即将来临。在南洋理工大学、天津大学等高校最新发布的论文《Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale》中,作者收集了两个主流 Agent Skills 市场 skills.rest 和 skillsmp.com 上超 30000 个 Skills 进行了安全性分析,结果发现:

这一切说明随着 Skills 的普及,未来发生在野的大规模攻击事件的概率非常高。那有办法规避吗?

3

用魔法打败魔法:Agent 扫描 Agent

我们研究发现,面对这种新型的、隐藏在自然语言背后的AI安全威胁,传统的代码审计工具、防火墙、杀毒软件几乎束手无策。它们看得懂代码,却读不懂人心,更理解不了什么是能支持 AI 的幽灵指令。

怎么办?我们的答案是:用魔法打败魔法,用 Agent 来扫描 Agent!

腾讯朱雀实验室开源了一站式AI红队安全测试平台------A.I.G。在最新的V3.6版本中,我们发布了行业内首个针对 Skills 和 MCP 等 AI 工具协议的安全扫描功能。A.I.G里有一个AI工具协议扫描智能体,它会像一个经验丰富的安全专家一样,自主分析你上传的每一个Skill:

1.读懂它:首先,它会阅读技能的文档和代码,理解这个技能是干什么的。

2.审计它:然后,它会用大模型的能力,去判断技能描述的功能和实际代码干的事是否一致。有没有后门代码?有没有藏着幽灵指令与不安全配置?有没有偷偷调用高危操作?

3.验证它:随后,它会对发现的所有可疑点进行二次确认,尽可能减少误报。

4.输出风险报告:最终,它成功的扫描出被篡改后的webapp-testing的SKILL.md中的存在窃取SSH密钥的恶意指令,并提供了详细的技术分析内容、攻击路径、影响评估与修复建议。

通过这种"Agent VS Agent"的模式,我们能够自动化、高精度地提前排查出那些潜藏的恶意技能,在它们造成危害前就将其拆除,未来我们还将支持无需上传直接评估 Agent 的潜在工具协议风险。同时我们也整理了一些安全防护建议:

4

写在最后:拥抱Agent时代,共建AI安全防线

Agent的时代已经到来,它正在以前所未有的速度重塑我们的工作和认知。但技术的发展总是伴随着双刃剑,新的能力必然带来新的风险。Anthropic在设计 Skills 规范时,将大部分安全责任留给了用户和开发者。但这对于大多数人来说,门槛太高了。我们不能指望每个用户都成为安全专家,去审计每一个技能的每一行文档与代码。

这正是我们不断迭代 A.I.G 这个开源AI红队安全测试平台的初衷。我们相信,只有构建起强大的、自动化的 AI 安全免疫体系,让安全能力像水和电一样触手可及,我们才能真正安心地拥抱这个激动人心的 Agent 时代。从2025年1月开源至今,我们非常高兴的看到了整个行业对AI安全的关注度正在快速提升,越来越多的人正在加入到共建AI安全防线的队伍中来。

2026年,我们将继续诚邀所有AI开发者和用户,与我们一起,共同为构建一个更安全、更可信的 Agent 生态贡献力量。

【附】A.I.G项目开源地址:https://github.com/Tencent/AI-Infra-Guard

参考链接:

1.https://github.com/anthropics/skills

2.https://medium.com/@yossifqassim/weaponizing-claude-code-skills-from-5-5-to-remote-shell-a14af2d109c9

3.https://www.catonetworks.com/blog/cato-ctrl-weaponizing-claude-skills-with-medusalocker/

4.https://x.com/shao__meng/status/2013608161773862948

5.https://arxiv.org/pdf/2601.10338

注明:本文部分配图为 AI 生成。

相关推荐
Akamai中国2 小时前
构建分布式应用?Akamai 和 Fermyon 正在改变游戏规则
人工智能·云计算·云服务·云存储
黎阳之光2 小时前
打破视域孤岛,智追目标全程 —— 公安视频追踪技术革新来袭
人工智能·算法·安全·视频孪生·黎阳之光
孤狼warrior2 小时前
图像生成 Stable Diffusion模型架构介绍及使用代码 附数据集批量获取
人工智能·python·深度学习·stable diffusion·cnn·transformer·stablediffusion
SmartBrain2 小时前
战略洞察:AI 赋能三医领域的平台架构分析报告
人工智能·语言模型·架构
余俊晖2 小时前
多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试
人工智能·自然语言处理·多模态
weilaikeqi11112 小时前
骏丰科技主动健康达人秀登上北京卫视,大健康行业迎需求重构
人工智能·科技·重构
larance2 小时前
方差和标准差
人工智能·算法·机器学习
努力毕业的小土博^_^2 小时前
【AI课程领学】第十二课 · 超参数设定与网络训练(课时1) 网络超参数设定:从“要调什么”到“怎么系统地调”(含 PyTorch 可复用模板)
人工智能·pytorch·python·深度学习·神经网络·机器学习
gongfuyd2 小时前
赵世钰《强化学习的数学原理》第十章重点总结
人工智能