MongoDB的$sample是啥?

$sample 是 MongoDB 聚合管道(Aggregation Pipeline)中的一个非常实用的阶段,它的作用是:

从集合中随机抽取指定数量的文档。


✅ 基本语法

js 复制代码
{ $sample: { size: N } }
  • size: 你要随机抽取的文档数量。

📌 示例

假设你有一个 questions 集合,里面有 1000 道题,你想随机抽 5 道用于练习:

js 复制代码
db.questions.aggregate([
  { $sample: { size: 5 } }
])

每次运行都会返回 5 条随机题目,非常适合:

  • 随机组卷
  • 推荐系统(随机推荐几条内容)
  • 抽奖功能
  • 数据抽样分析

🔍 它是怎么实现"随机"的?

MongoDB 并不是真的"完全随机读取每一条",而是使用一种高效的算法:

  • 如果集合小:直接加载所有文档,随机挑选
  • 如果集合大:使用 ** reservoir sampling(蓄水池抽样)** 算法,在不加载全部数据的情况下实现均匀随机

⚡️ 性能很好,即使千万级数据也能快速抽样


🆚 对比:为什么不用 find().limit().skip(Math.random())

你可能会想:我能不能这样做?

js 复制代码
const count = await db.questions.countDocuments();
const randomSkip = Math.floor(Math.random() * count);
db.questions.find().skip(randomSkip).limit(5);

不推荐!原因:

问题 说明
不是真正随机 只是从某个位置往后取,容易重复或偏移
性能差 skip(N) 越大,越慢(要跳过前 N 条)
分布不均 数据增删后,随机性变差

✅ 而 $sample

  • 真正均匀随机
  • 性能稳定
  • 自动优化

🧩 实际应用场景

1. 随机出题(考试系统)
js 复制代码
// 随机抽 10 道单选题
db.questions.aggregate([
  { $match: { type: "single" } },
  { $sample: { size: 10 } }
])
2. 每日推荐(随机推荐 3 篇文章)
js 复制代码
db.articles.aggregate([
  { $match: { status: "published" } },
  { $sample: { size: 3 } }
])
3. 抽奖系统(从参与用户中抽 1 名幸运儿)
js 复制代码
db.participants.aggregate([
  { $sample: { size: 1 } }
])

⚠️ 注意事项

  1. 不能保证绝对唯一:多次调用可能抽到同一条(毕竟是随机)
  2. 适合中小规模抽样size 不宜过大(比如 size: 10000 可能慢)
  3. 不适用于"分页随机" :如果你要做"第一页随机5条,第二页再随机5条",直接用 $sample 每次都行,但无法保证不重复(需要业务层去重)

✅ 最佳实践

js 复制代码
// 安全做法:先过滤,再抽样
db.questions.aggregate([
  { $match: { 
      status: "active", 
      difficulty: "easy" 
  } },
  { $sample: { size: 5 } }
])

这样既高效又精准。


🎯 总结

特性 说明
作用 随机抽取 N 条文档
语法 { $sample: { size: N } }
优点 真随机、性能好、语法简单
适用场景 抽题、推荐、抽奖、数据抽样
替代方案 skip(random) 不推荐

如果你想做一个"每日一题"功能,用 $sample 再合适不过了!

相关推荐
zzh08113 分钟前
数据库初识与安装
数据库
m0_7380980217 分钟前
使用Python操作文件和目录(os, pathlib, shutil)
jvm·数据库·python
AI成长日志29 分钟前
【实用工具教程】数据库基础操作实战:SQLite/MySQL连接、CRUD操作与查询优化
数据库·mysql·sqlite
l1t34 分钟前
DeepSeek总结的 DuckDB 1.5 功能亮点
数据库·sql·duckdb
Bdygsl42 分钟前
MySQL(4)—— 表设计
数据库·mysql
2301_819414301 小时前
使用Python进行图像识别:CNN卷积神经网络实战
jvm·数据库·python
2401_858936881 小时前
51 单片机核心知识点:GPIO、中断、定时器与蜂鸣器驱动
单片机·mongodb·nosql
未来龙皇小蓝1 小时前
【MySQL-索引调优】09:Order By相关概念
数据库·mysql·性能优化
未来龙皇小蓝1 小时前
【MySQL-索引调优】10:常见的分页优化处理
数据库·mysql·性能优化
God__is__a__girl1 小时前
Oracle驱动版本引发ORA-01461批量插入异常排查与解决
数据库·oracle