MongoDB聚合:$changeStreamSplitLargeEvent

变更流(Change stream)允许应用访问数据实时变更情况,应用可以使用变更流订阅集合、数据库甚至整个部署的数据变化并直接跟它们进行交互。因为变更流使用了聚合框架,所以应用也可以筛选特定的变化并灵活的转换通知。

如果变更流的事件超过16M,将返回BSONObjectTooLarge异常。不过从7.0开始,MongoDB提供了$changeStreamSplitLargeEvent阶段,支持把事件拆分成多个小的片段。在必要时应该使用$changeStreamSplitLargeEvent,例如应用需要整个文档的pre-imagespost-images,并且产生的大事件超过了16MB,就应该使用$changeStreamSplitLargeEvent

在决定使用$changeStreamSplitLargeEvent之前,应该先尝试降低变更事件的大小,例如:

  • 若非必要,不要请求pre-imagespost-images文档,在大多数情况下会生成fullDocumentfullDocumentBeforeChange字段,它们通常是变更事件最大的对象。
  • 使用$project只选取应用需要的字段,这可以减小变更事件的大小并避免把大事件拆分为片段时耗费过多的时间,也就可以一次返回更多的变更事件。

聚合管道中只能有一个$changeStreamSplitLargeEvent,而且必须放在管道的最后,$changeStreamSplitLargeEvent只能用于$changeStream管道。

语法

js 复制代码
{
  $changeStreamSplitLargeEvent: {}
}

$changeStreamSplitLargeEvent会把超过16MB的事件分割成多个片段,并使用变更流游标按顺序返回这些片段。分割片段时,会在第一个片段中返回最大数量的字段,这样可以确保尽快返回事件上下文。分割变更事件时,只使用顶层字段的大小。$changeStreamSplitLargeEvent不会递归处理或分割子文档。例如,如果使用$project阶段创建一个单字段大小为 20MB的变更事件,则该事件不会被拆分,而是会返回错误信息。

每个片段都有一个恢复标记。使用片段令牌恢复的数据流有以下两种情况:

  • 从后续片段开始新的数据流。
  • 如果从序列中的最后一个片段恢复,则从下一个事件开始。

事件的每个片段都包含一个splitEvent文档:

js 复制代码
splitEvent: {
   fragment: <int>,  //片段索引,从1开始
   of: <int>         //片段中事件总数
}

举例

下面的示例显示了$changeStreamSplitLargeEvent在集合myCollection中的使用。创建myCollection并插入一个数据量略低于16MB的文档:

js 复制代码
db.myCollection.insertOne(
   { _id: 0, largeField: "a".repeat( 16 * 1024 * 1024 - 1024 ) } //largeField 包含重复的字母 a。
)

启用myCollection$changeStreamPreAndPostImages,允许变更流检索更新前(pre-image)和更新后(post-image)的文档:

js 复制代码
db.runCommand( {
   collMod: "myCollection",
   changeStreamPreAndPostImages: { enabled: true }
} )

使用db.collection.watch()创建一个变化流游标,用于监控myCollection的变化:

js 复制代码
myChangeStreamCursor = db.myCollection.watch(
   [ { $changeStreamSplitLargeEvent: {} } ],
   { fullDocument: "required", fullDocumentBeforeChange: "required" }
)

对于变更流事件:

  • fullDocument:"required" 包含post-image文档
  • fullDocumentBeforeChange:"required" 包含pre-image文档

更新myCollection的文档,这也会产生一个包含文档pre-imagepost-image的变更流事件:

js 复制代码
db.myCollection.updateOne(
   { _id: 0 },
   { $set: { largeField: "b".repeat( 16 * 1024 * 1024 - 1024 ) } }
)

largeField \现在包含重复的字母b

使用next()方法从myChangeStreamCursor中读取片段,并将片段存储在名为 firstFragmentsecondFragmentthirdFragment的对象中:

js 复制代码
const firstFragment = myChangeStreamCursor.next()
const secondFragment = myChangeStreamCursor.next()
const thirdFragment = myChangeStreamCursor.next()

显示firstFragment.splitEvent

js 复制代码
firstFragment.splitEvent

输出片段详细信息:

js 复制代码
splitEvent: { fragment: 1, of: 3 }

类似的,secondFragment.splitEventthirdFragment.splitEvent返回:

js 复制代码
splitEvent: { fragment: 2, of: 3 }
splitEvent: { fragment: 3, of: 3 }

检查firstFragment对象的键:

js 复制代码
Object.keys( firstFragment )

输出:

js 复制代码
[
   '_id',
   'splitEvent',
   'wallTime',
   'clusterTime',
   'operationType',
   'documentKey',
   'ns',
   'fullDocument'
]

检查firstFragment.fullDocument的字节大小:

js 复制代码
bsonsize( firstFragment.fullDocument )

输出:

js 复制代码
16776223

secondFragment包含fullDocumentBeforeChange pre-image,大小约为 16MB。下面的示例显示了secondFragment对象的键:

js 复制代码
Object.keys( secondFragment )

输出:

js 复制代码
[ '_id', 'splitEvent', 'fullDocumentBeforeChange' ]

thirdFragment``包含updateDescription字段,大小约为16MB。下面的示例显示了thirdFragment对象的键:

js 复制代码
Object.keys( thirdFragment )

输出:

js 复制代码
[ '_id', 'splitEvent', 'updateDescription' ]
相关推荐
不羁。。1 小时前
【撸靶笔记】第七关:GET - Dump into outfile - String
数据库·笔记·oracle
yangchanghua1112 小时前
pgsql 如何查询今天范围内的数据(当天0点0分0秒 - 当天23点59分59秒....)
数据库·pgsql
larance2 小时前
SQLAlchemy 的异步操作来批量保存对象列表
数据库·python
python_chai2 小时前
从数据汇总到高级分析,SQL 查询进阶实战(下篇)—— 分组、子查询与窗口函数全攻略
数据库·sql·mysql
在努力的前端小白3 小时前
Spring Boot 敏感词过滤组件实现:基于DFA算法的高效敏感词检测与替换
java·数据库·spring boot·文本处理·敏感词过滤·dfa算法·组件开发
未来之窗软件服务3 小时前
自建知识库,向量数据库 (九)之 量化前奏分词服务——仙盟创梦IDE
数据库·仙盟创梦ide·东方仙盟·自建ai·ai分词
冒泡的肥皂6 小时前
MVCC初学demo(一
数据库·后端·mysql
.Shu.7 小时前
Redis Reactor 模型详解【基本架构、事件循环机制、结合源码详细追踪读写请求从客户端连接到命令执行的完整流程】
数据库·redis·架构
anghost1509 小时前
基于单片机的智能声控窗帘
单片机·嵌入式硬件·mongodb
薛晓刚10 小时前
当MySQL的int不够用了
数据库