AI 写的代码有 48% 在"胡说八道":那些你 npm install 的包,可能根本不存在

摘要 :研究显示,AI 生成的代码中有 48% 存在"幻觉"------引用了根本不存在的包、API 或方法。更可怕的是,黑客已经开始利用这个漏洞:他们注册 AI 经常"幻觉"出来的假包名,等你 npm install,恶意代码就进了你的项目。这种攻击叫"Slopsquatting",已经影响了 44 万个包依赖。本文带你深入了解这个 AI 时代的新型安全危机。


01. 那个让我后背发凉的 Bug

上周,我在 Code Review 时发现了一个奇怪的 import:

javascript 复制代码
import { validateEmail } from "email-validator-pro"

我没见过这个包,于是去 npm 上搜了一下。

搜索结果:0 个匹配。

我问写这段代码的同事:"这个包是哪来的?"

他说:"Cursor 自动补全的啊,我看着挺专业的就用了。"

我又问:"你 npm install 过吗?"

他愣了一下:"好像......没有?代码能跑啊。"

我看了一眼 package.json,果然没有这个依赖。代码之所以能跑,是因为另一个包里恰好有个同名的函数被导出了。

这次我们运气好。

但如果这个"不存在的包"真的被人注册了呢? 如果里面藏着恶意代码呢? 如果我们真的 npm install 了呢?

这不是假设。这正在发生。


02. AI 代码幻觉:48% 的代码在"胡说八道"

2.1 什么是 AI 代码幻觉?

AI 代码幻觉(AI Code Hallucination)是指 AI 生成的代码中包含:

  • 不存在的包import xxx from 'fake-package'
  • 不存在的 APIresponse.data.nonExistentMethod()
  • 不存在的方法array.filterMap() (JavaScript 没有这个方法)
  • 错误的参数fs.readFile(path, 'utf-8', callback, extraParam)
  • 虚构的配置项{ enableTurboMode: true } (没有这个选项)

2.2 有多严重?

2025 年的研究数据让人触目惊心:

erlang 复制代码
AI 代码幻觉统计(2025年研究):

样本量:576,000 个代码样本
测试模型:16 个主流 LLM

关键发现:
├─ 48% 的 AI 生成代码包含某种形式的幻觉
├─ 440,000 个包依赖是"幻觉"出来的(不存在)
├─ 58% 的幻觉包名会重复出现(AI 会反复犯同样的错)
├─ 开源模型幻觉率:22%
├─ 商业模型幻觉率:5%(好一些,但仍然存在)
└─ 45% 的 AI 生成应用包含可利用的 OWASP 漏洞

将近一半的 AI 代码在"胡说八道"。

2.3 为什么 AI 会"幻觉"?

typescript 复制代码
// AI 幻觉的产生机制
interface HallucinationCause {
  cause: string
  explanation: string
  example: string
}

const hallucinationCauses: HallucinationCause[] = [
  {
    cause: "训练数据过时",
    explanation:
      "AI 的训练数据可能是 1-2 年前的,很多新包它不知道,很多旧包已经改名或废弃",
    example: "推荐使用已经废弃的 request 库,而不是 axios",
  },
  {
    cause: "模式匹配过度泛化",
    explanation:
      "AI 看到 'email' + 'validator' 就觉得应该有个 'email-validator' 包",
    example: "生成 import { validate } from 'email-validator-pro' // 不存在",
  },
  {
    cause: "混淆不同语言/框架",
    explanation:
      "把 Python 的库名用在 JavaScript 里,或者把 React 的 API 用在 Vue 里",
    example: "在 Node.js 里 import pandas // 这是 Python 的库",
  },
  {
    cause: "自信地编造",
    explanation: "AI 不会说'我不知道',它会自信地给出一个看起来合理的答案",
    example: "生成一个完整的、看起来很专业的、但完全虚构的 API 调用",
  },
  {
    cause: "私有代码库盲区",
    explanation: "AI 没见过你公司的内部代码,但会根据命名规律'猜测'",
    example: "猜测你公司有个 @company/utils 包,但实际上叫 @company/common",
  },
]

03. Slopsquatting:黑客的"钓鱼"新玩法

3.1 什么是 Slopsquatting?

Slopsquatting = Slop (AI 生成的垃圾内容)+ Squatting(抢注)

简单来说:黑客注册 AI 经常"幻觉"出来的假包名,等你上钩。

vbnet 复制代码
Slopsquatting 攻击流程:

第一步:研究 AI 幻觉模式
├─ 用各种 LLM 生成大量代码
├─ 收集所有"幻觉"出来的包名
└─ 找出重复率最高的(58% 会重复)

第二步:抢注假包名
├─ 在 npm / PyPI 上注册这些包名
├─ 包内容看起来正常(躲避审查)
└─ 但藏有恶意代码

第三步:等待受害者
├─ 开发者用 AI 生成代码
├─ AI "幻觉"出这个包名
├─ 开发者 npm install
└─ 恶意代码进入项目

第四步:获利
├─ 窃取环境变量(API Key、密码)
├─ 植入后门
├─ 加密勒索
└─ 供应链攻击(感染下游项目)

3.2 真实案例

2025 年,安全研究人员发现了一个大规模的 Slopsquatting 攻击:

objectivec 复制代码
案例:huggingface-cli 事件

背景:
├─ Hugging Face 是最流行的 AI 模型平台
├─ 官方 CLI 工具叫 huggingface-hub
└─ 但 AI 经常"幻觉"出 huggingface-cli 这个名字

攻击:
├─ 黑客注册了 huggingface-cli 包
├─ 包内容:正常的 CLI 功能 + 隐藏的数据窃取代码
├─ 窃取内容:HF_TOKEN(Hugging Face API 密钥)
└─ 影响:数千个项目被感染

发现过程:
├─ 安全研究人员在分析 AI 幻觉模式时发现
├─ 该包已被下载数万次
└─ 大部分下载来自 AI 辅助开发的项目

3.3 规模有多大?

go 复制代码
Slopsquatting 威胁规模(2025-2026):

已发现的恶意包:
├─ npm:3,000+ 个疑似 Slopsquatting 包
├─ PyPI:1,500+ 个疑似 Slopsquatting 包
└─ 其他包管理器:数量不详

潜在攻击面:
├─ 440,000 个 AI 幻觉包名可被利用
├─ 58% 的幻觉包名会重复出现(高价值目标)
└─ 每天有数百万次 AI 辅助的包安装

受影响的开发者:
├─ 97% 的开发者不会验证 AI 推荐的包是否存在
├─ 大部分人直接复制 AI 生成的 import 语句
└─ 很少有人检查 package.json 里的陌生依赖

04. 更可怕的:AI 生成的"合成漏洞"

除了幻觉包名,AI 还会生成一种全新的安全威胁:合成漏洞(Synthetic Vulnerabilities)

4.1 什么是合成漏洞?

合成漏洞是指:只存在于 AI 生成代码中的安全漏洞,人类程序员通常不会写出这种代码。

javascript 复制代码
// 人类程序员写的代码(有漏洞,但是常见模式)
const userId = req.params.id
const user = await db.query(`SELECT * FROM users WHERE id = ${userId}`)
// SQL 注入漏洞,但 SAST 工具能检测到

// AI 生成的代码(合成漏洞,工具检测不到)
const userId = req.params.id
const sanitizedId = userId.replace(/[^0-9]/g, "") // 看起来做了过滤
const user = await db.query(`SELECT * FROM users WHERE id = ${sanitizedId}`)
// 问题:如果 userId 是 "1 OR 1=1",过滤后变成 "111"
// 不是注入了,但逻辑完全错误,可能返回错误的用户数据
// 传统 SAST 工具检测不到这种"逻辑漏洞"

4.2 合成漏洞的特点

typescript 复制代码
// 合成漏洞 vs 传统漏洞
interface VulnerabilityComparison {
  aspect: string;
  traditional: string;
  synthetic: string;
}

const comparison: VulnerabilityComparison[] = [
  {
    aspect: "来源",
    traditional: "人类程序员的常见错误",
    synthetic: "AI 的独特错误模式"
  },
  {
    aspect: "可检测性",
    traditional: "SAST/DAST 工具能检测大部分",
    synthetic: "传统工具检测不到"
  },
  {
    aspect: "模式",
    traditional: "已知的漏洞模式(OWASP Top 10)",
    synthetic: "全新的、未分类的漏洞模式"
  },
  {
    aspect: "修复难度",
    traditional: "有成熟的修复方案",
    synthetic: "需要理解 AI 的"思维方式"才能修复"
  },
  {
    aspect: "复现性",
    traditional: "相同输入产生相同漏洞",
    synthetic: "AI 可能每次生成不同的漏洞代码"
  }
];

4.3 研究数据

erlang 复制代码
合成漏洞研究(2025年,50万+代码样本):

发现:
├─ AI 生成的代码比人类代码有更多高危漏洞
├─ AI 会复制训练数据中的不安全编码模式
├─ AI 会"幻觉"出不存在的抽象层和框架
└─ 这些"幻觉框架"创造了全新的攻击面

具体数据:
├─ 45% 的 AI 生成应用包含 OWASP 漏洞
├─ AI 代码的高危漏洞密度是人类代码的 1.5 倍
├─ 30% 的合成漏洞无法被传统 SAST 工具检测
└─ 修复 AI 代码漏洞的时间比修复人类代码多 40%

05. 如何保护自己?

5.1 代码审查清单

typescript 复制代码
// AI 代码审查清单
const aiCodeReviewChecklist = {

  // 1. 依赖检查
  dependencies: [
    "每个 import 的包是否真实存在?",
    "包名拼写是否正确?(typosquatting 风险)",
    "包是否来自官方源?",
    "包的下载量和维护状态如何?",
    "包的最近更新时间?(太新可能是恶意包)"
  ],

  // 2. API 检查
  apis: [
    "调用的 API 是否真实存在?",
    "参数数量和类型是否正确?",
    "返回值类型是否符合预期?",
    "是否使用了已废弃的 API?"
  ],

  // 3. 安全检查
  security: [
    "是否有 SQL 注入风险?",
    "是否有 XSS 风险?",
    "敏感数据是否正确处理?",
    "权限检查是否完整?",
    "是否有硬编码的密钥或密码?"
  ],

  // 4. 逻辑检查
  logic: [
    "边界情况是否处理?",
    "错误处理是否完善?",
    "代码逻辑是否符合需求?",
    "是否有"看起来对但实际错"的代码?"
  ]
};

5.2 工具推荐

arduino 复制代码
防护 AI 代码幻觉的工具:

依赖检查:
├─ npm audit / yarn audit(基础检查)
├─ Snyk(更全面的漏洞扫描)
├─ Socket.dev(专门检测供应链攻击)
└─ deps.dev(Google 的依赖分析工具)

代码扫描:
├─ SonarQube(传统 SAST)
├─ Semgrep(可自定义规则)
├─ CodeQL(GitHub 的代码分析)
└─ AI 专用扫描器(2026年新出的工具)

实时防护:
├─ IDE 插件:在 import 时检查包是否存在
├─ Git Hooks:提交前自动检查依赖
├─ CI/CD 集成:构建时扫描
└─ 运行时监控:检测异常行为

5.3 最佳实践

markdown 复制代码
AI 辅助开发安全最佳实践:

1. 永远不要盲目信任 AI 生成的代码
   ├─ 每个 import 都要验证
   ├─ 每个 API 调用都要查文档
   └─ 每段逻辑都要理解

2. 使用锁文件
   ├─ package-lock.json / yarn.lock
   ├─ 锁定依赖版本
   └─ 防止依赖被篡改

3. 定期审计依赖
   ├─ 每周运行 npm audit
   ├─ 检查新增的依赖
   └─ 移除不需要的依赖

4. 使用私有镜像
   ├─ 公司内部 npm 镜像
   ├─ 只允许白名单包
   └─ 阻止未知包安装

5. 代码审查流程
   ├─ AI 生成的代码必须人工审查
   ├─ 重点检查依赖和安全相关代码
   └─ 使用自动化工具辅助

06. 给不同角色的建议

6.1 如果你是个人开发者

复制代码
个人开发者防护指南:

立即做:
├─ 安装 Socket.dev 或类似的 IDE 插件
├─ 每次 npm install 前检查包是否存在
├─ 养成查文档的习惯(不要只信 AI)
└─ 定期运行 npm audit

习惯养成:
├─ AI 生成代码后,先读一遍再用
├─ 看到陌生的包名,先去 npm 搜一下
├─ 不确定的 API,查官方文档确认
└─ 保持怀疑态度

6.2 如果你是团队 Leader

复制代码
团队安全策略:

流程层面:
├─ 建立 AI 代码审查规范
├─ 要求所有 AI 生成代码必须标注
├─ 重点审查依赖变更的 PR
└─ 定期安全培训

工具层面:
├─ CI/CD 集成依赖扫描
├─ 使用私有 npm 镜像
├─ 配置依赖白名单
└─ 自动化安全检查

文化层面:
├─ 鼓励质疑 AI 生成的代码
├─ 奖励发现安全问题的人
├─ 分享 AI 代码踩坑经验
└─ 建立安全意识

6.3 如果你是安全工程师

复制代码
安全工程师行动指南:

短期:
├─ 研究 AI 代码幻觉模式
├─ 建立 AI 代码专用扫描规则
├─ 监控公司代码库中的可疑依赖
└─ 培训开发团队

中期:
├─ 开发 AI 代码专用安全工具
├─ 建立 AI 代码安全基线
├─ 与 AI 工具厂商合作改进
└─ 参与行业安全标准制定

长期:
├─ 研究合成漏洞的检测方法
├─ 建立 AI 代码安全知识库
├─ 推动 AI 编程工具的安全改进
└─ 培养 AI 安全专业人才

07. 写在最后

AI 编程工具是把双刃剑。

它可以让你的效率提升 10 倍,也可以让你的项目在不知不觉中被植入恶意代码。

48% 的 AI 代码在"胡说八道"。

这不是危言耸听,这是研究数据。

440,000 个幻觉包名等着被利用。

这不是未来威胁,这是正在发生的攻击。

作为程序员,我们需要:

  1. 保持警惕:AI 生成的代码不是"免检产品"
  2. 验证一切:每个包、每个 API、每段逻辑
  3. 使用工具:让自动化工具帮你把关
  4. 持续学习:了解最新的安全威胁和防护方法

最后,送给所有程序员一句话:

"AI 可以帮你写代码,但只有你能为代码的安全负责。"

"那个你随手 npm install 的包,可能正在窃取你的 API Key。"

在 AI 时代,安全意识比任何时候都重要。

保持警惕,保护好自己。


💬 互动时间:你遇到过 AI 代码幻觉吗?你的团队有什么防护措施?评论区聊聊!

觉得有用的话,点赞 + 在看 + 转发,让更多程序员朋友看到~


本文作者是一个差点被 AI 幻觉坑了的程序员。关注我,一起在 AI 时代保持安全意识。

相关推荐
Anita_Sun2 小时前
Underscore.js 整体设计思路与架构分析
前端·javascript
ycgg2 小时前
深入理解CSS transform矩阵:从底层原理到实战应用
前端
p***s912 小时前
Spring Boot项目接收前端参数的11种方式
前端·spring boot·后端
Hello.Reader2 小时前
PyFlink DataStream Operators 算子分类、函数写法、类型系统、链路优化(Chaining)与工程化踩坑
前端·python·算法
AI架构师之家2 小时前
一文分清机器学习、深度学习和各类 AI 工具的关系:心法与招式的区别
后端·ai编程
C_心欲无痕2 小时前
网络相关 - Ngrok内网穿透使用
运维·前端·网络
咖啡の猫2 小时前
TypeScript-Babel
前端·javascript·typescript
Mintopia3 小时前
🤖 AI 决策 + 意图OS:未来软件形态的灵魂共舞
前端·人工智能·react native