MongoDB的$sample是啥?

$sample 是 MongoDB 聚合管道(Aggregation Pipeline)中的一个非常实用的阶段,它的作用是:

从集合中随机抽取指定数量的文档。


✅ 基本语法

js 复制代码
{ $sample: { size: N } }
  • size: 你要随机抽取的文档数量。

📌 示例

假设你有一个 questions 集合,里面有 1000 道题,你想随机抽 5 道用于练习:

js 复制代码
db.questions.aggregate([
  { $sample: { size: 5 } }
])

每次运行都会返回 5 条随机题目,非常适合:

  • 随机组卷
  • 推荐系统(随机推荐几条内容)
  • 抽奖功能
  • 数据抽样分析

🔍 它是怎么实现"随机"的?

MongoDB 并不是真的"完全随机读取每一条",而是使用一种高效的算法:

  • 如果集合小:直接加载所有文档,随机挑选
  • 如果集合大:使用 ** reservoir sampling(蓄水池抽样)** 算法,在不加载全部数据的情况下实现均匀随机

⚡️ 性能很好,即使千万级数据也能快速抽样


🆚 对比:为什么不用 find().limit().skip(Math.random())

你可能会想:我能不能这样做?

js 复制代码
const count = await db.questions.countDocuments();
const randomSkip = Math.floor(Math.random() * count);
db.questions.find().skip(randomSkip).limit(5);

不推荐!原因:

问题 说明
不是真正随机 只是从某个位置往后取,容易重复或偏移
性能差 skip(N) 越大,越慢(要跳过前 N 条)
分布不均 数据增删后,随机性变差

✅ 而 $sample

  • 真正均匀随机
  • 性能稳定
  • 自动优化

🧩 实际应用场景

1. 随机出题(考试系统)
js 复制代码
// 随机抽 10 道单选题
db.questions.aggregate([
  { $match: { type: "single" } },
  { $sample: { size: 10 } }
])
2. 每日推荐(随机推荐 3 篇文章)
js 复制代码
db.articles.aggregate([
  { $match: { status: "published" } },
  { $sample: { size: 3 } }
])
3. 抽奖系统(从参与用户中抽 1 名幸运儿)
js 复制代码
db.participants.aggregate([
  { $sample: { size: 1 } }
])

⚠️ 注意事项

  1. 不能保证绝对唯一:多次调用可能抽到同一条(毕竟是随机)
  2. 适合中小规模抽样size 不宜过大(比如 size: 10000 可能慢)
  3. 不适用于"分页随机" :如果你要做"第一页随机5条,第二页再随机5条",直接用 $sample 每次都行,但无法保证不重复(需要业务层去重)

✅ 最佳实践

js 复制代码
// 安全做法:先过滤,再抽样
db.questions.aggregate([
  { $match: { 
      status: "active", 
      difficulty: "easy" 
  } },
  { $sample: { size: 5 } }
])

这样既高效又精准。


🎯 总结

特性 说明
作用 随机抽取 N 条文档
语法 { $sample: { size: N } }
优点 真随机、性能好、语法简单
适用场景 抽题、推荐、抽奖、数据抽样
替代方案 skip(random) 不推荐

如果你想做一个"每日一题"功能,用 $sample 再合适不过了!

相关推荐
Nturmoils4 小时前
订单列表慢查询,先看 WHERE、ORDER BY 和 LIMIT
数据库
渣波7 小时前
拒绝 SQL 焦虑!手把手带你用 NestJS + Prisma + DTO 写出“防弹”级后端代码
javascript·数据库·后端
葫芦和十三9 小时前
图解 MongoDB 08|ESR 原则:复合索引的字段顺序怎么定
后端·mongodb·agent
葫芦和十三17 小时前
图解 MongoDB 07|索引类型:七种索引,七种访问形状
后端·mongodb·agent
倔强的石头_1 天前
KingbaseES 新版MySQL 兼容版体验:旧版迁移 + 功能实测
数据库
葫芦和十三1 天前
图解 MongoDB 06|模式演进:无 schema 是优势还是债
后端·mongodb·agent
葫芦和十三2 天前
图解 MongoDB 05|文档模型设计:内嵌 vs 引用,反范式不是免费午餐
后端·mongodb·agent
葫芦和十三2 天前
图解 MongoDB 03|CRUD 全链路:一条 find 怎么穿过 WiredTiger
后端·mongodb·agent
葫芦和十三3 天前
图解 MongoDB 04|索引模型:每建一个索引,就是在 B+-tree 森林里多栽一棵
后端·mongodb·agent
葫芦和十三4 天前
图解 MongoDB 02|BSON:你以为存的是 JSON,其实是带类型的二进制
后端·mongodb·agent