MongoDB聚合: $sortByCount

$sortByCount聚合根据指定表达式的值对输入文档进行分组,然后计算每个不同分组中的文档数。

每个输出文档包含两个字段:一个是包含不同分组值的_id字段,另一个是包含属于该分组或类别的文档数量的计数字段。

文档按计数降序排序。

语法

js 复制代码
{ $sortByCount:  <expression> }

expression是要分组的表达式,可以指定除文档字面以外的任何表达式。

如果要指定字段路径,需要在字段名前加上美元符号$并用引号引起来,例如,要按employee字段分组,可指定"$employee"作为表达式。

js 复制代码
{ $sortByCount:  "$employee" }

虽然不能为分组表达式指定文档字面意义,但可以指定一个字段或一个表达式来生成文档。例如,如果employee字段和business字段都是文档字段,那么$mergeObjects表达式就可以作为 $sortByCount的有效参数:

js 复制代码
{ $sortByCount: { $mergeObjects: [ "$employee", "$business" ] } }

但是,下面使用文档字面表达式的示例是错误的:

js 复制代码
{ $sortByCount: { lname: "$employee.last", fname: "$employee.first" } }

用法

$sortByCount受100M内存使用限制,如果需要额外空间,可以将临时文件写入磁盘。

从MongoDB6.0开始,需要100兆内存才能执行的管道阶段会默认将临时文件写入磁盘。在 MongoDB 早期版本中,必须传递{ allowDiskUse: true}才能启用。

单个查找和聚合命令可以通过以下任一方式覆盖allowDiskUseByDefault参数:

  • allowDiskUseByDefault设置为false时,使用{ allowDiskUse: true}可以把临时文件写入磁盘

  • allowDiskUseByDefault设置为true时,使用{ allowDiskUse: false}将禁止把临时文件写入磁盘。

$sortByCount阶段等价于$group + $sort

js 复制代码
{ $group: { _id: <expression>, count: { $sum: 1 } } },
{ $sort: { count: -1 } }

举例:

exhibits集合中有下面的文档:

json 复制代码
{ "_id" : 1, "title" : "The Pillars of Society", "artist" : "Grosz", "year" : 1926, "tags" : [ "painting", "satire", "Expressionism", "caricature" ] }
{ "_id" : 2, "title" : "Melancholy III", "artist" : "Munch", "year" : 1902, "tags" : [ "woodcut", "Expressionism" ] }
{ "_id" : 3, "title" : "Dancer", "artist" : "Miro", "year" : 1925, "tags" : [ "oil", "Surrealism", "painting" ] }
{ "_id" : 4, "title" : "The Great Wave off Kanagawa", "artist" : "Hokusai", "tags" : [ "woodblock", "ukiyo-e" ] }
{ "_id" : 5, "title" : "The Persistence of Memory", "artist" : "Dali", "year" : 1931, "tags" : [ "Surrealism", "painting", "oil" ] }
{ "_id" : 6, "title" : "Composition VII", "artist" : "Kandinsky", "year" : 1913, "tags" : [ "oil", "painting", "abstract" ] }
{ "_id" : 7, "title" : "The Scream", "artist" : "Munch", "year" : 1893, "tags" : [ "Expressionism", "painting", "oil" ] }
{ "_id" : 8, "title" : "Blue Flower", "artist" : "O'Keefe", "year" : 1918, "tags" : [ "abstract", "painting" ] }

以下操作会展开tags数组,并使用$sortByCount阶段来计算与每个tag相关的文档数:

js 复制代码
db.exhibits.aggregate( [ { $unwind: "$tags" },  { $sortByCount: "$tags" } ] )

操作将返回以下文件,按计数降序排序:

json 复制代码
{ "_id" : "painting", "count" : 6 }
{ "_id" : "oil", "count" : 4 }
{ "_id" : "Expressionism", "count" : 3 }
{ "_id" : "Surrealism", "count" : 2 }
{ "_id" : "abstract", "count" : 2 }
{ "_id" : "woodblock", "count" : 1 }
{ "_id" : "woodcut", "count" : 1 }
{ "_id" : "ukiyo-e", "count" : 1 }
{ "_id" : "satire", "count" : 1 }
{ "_id" : "caricature", "count" : 1 }
相关推荐
枕布响丸辣2 分钟前
【无标题】
数据库·oracle
Cory.眼5 分钟前
MySQL语法错误与修正指南
数据库·sql·oracle
LSL666_12 分钟前
Redis值数据类型——sorted set
数据库·redis·缓存·数据类型
supericeice18 分钟前
GraphRAG 和 RAG 的区别:企业知识问答什么时候该升级到 GraphRAG
数据库·知识图谱·rag·graphrag
菜菜小狗的学习笔记18 分钟前
黑马程序员Redis--基础篇
数据库·redis·缓存
是桃萌萌鸭~20 分钟前
Oracle参数db_unique_name详解
数据库·sql·oracle·database
Binary-Jeff22 分钟前
MySQL MVCC 原理解析:Undo Log、ReadView 与版本可见性机制
java·数据库·后端·mysql·spring
bug远离Jemma22 分钟前
MySql基本使用命令记录
数据库·mysql·oracle
Leon-Ning Liu22 分钟前
SQL Server在ldf文件误删的情况下恢复数据库
数据库·sqlserver
专注_每天进步一点点26 分钟前
mysql-connector-j(8.0 及以上版本,包括你使用的 8.3.0)并非采用 GPL 许可证,因此你在项目中引入该依赖时,不需要遵循 GPL 的开源要求(比如开源你的整个项目)
数据库·mysql·apache