Mongodb文本索引

学习mongodb,体会mongodb的每一个使用细节,欢迎阅读威赞的文章。这是威赞发布的第94篇mongodb技术文章,欢迎浏览本专栏威赞发布的其他文章。如果您认为我的文章对您有帮助或者解决您的问题,欢迎在文章下面点个赞,或者关注威赞。谢谢。威赞文章都是结合官方文档,翻译整理而来,并对每个知识点的描述都认真思考和实践,对难以理解的地方,使用简单容易理解的方式进行阐述。

本文结合Mongodb的官方文档,整理文本索引的内容。思考这样的应用场景。在一家服装为主营业务的电商平台上,集合clothing包含了商品的描述信息。用户想要查找用丝绸制作的衣服,在商品描述信息上建立一个文本索引,并使用silk作为关键字查询商品的描述信息。该查询返回了描述当中带有丝绸的文档数据。

概述

文本索引,能够支持保存字符串字段的文本查询。文本索引,提高了基于单个词语或短语的查询性能。一个集合中,只能有一个文本索引,但该文本索引可以包含多个字段。

使用下面的语法来向集合中添加文本索引

db.<collection>.createIndex(
  {
    <field1>: "text",
    <field2>: "text",
    ...
  }
)

文本索引,支持使用text操作符,查询用户自己搭建的Mongodb服务器。但用户在使用text时,必须添加文本索引。

使用限制

复合文本索引

复合文本索引是包含一个文本索引键和一个其他索引类型构成的索引,该索引中,只有文本索引决定了该索引和哪个文档关联。其他索引类型的键,不能够决定关联哪一个文档。

复合文本索引,不能包含其他特殊类型的文本索引。如不能和多键索引,地理信息索引共同使用。

当使用复合文本索引字段查询时,使用$text操作符时,查询条件中必须包含一个等值查询条件。

创建复合文本索引时,文本索引类型的字段必须要排列在一起。

稀疏属性

文本索引默认是稀疏的。当用户插入一个不包含文本索引字段的新文档时,mongodb不会为该文档添加文本索引。

存储要求和性能消耗

  • 文本索引会消耗大量的内存。文本索引几乎包含新插入文档文本字段的每一个单词。
  • 构建文本索引的过程类似构建大的多键索引,但相同规模的数据量,文本索引构建花费更多时间。
  • 因为构建文本索引要消耗大量的内存,所以要保证操作系统有足够的文件打开限制数量。
  • 文本索引影响写操作性能,因为mongodb必须为新插入文档文本数据的每一个单词添加到索引中。
  • 文本索引保存的是每一个单词,不保存文档数据中复杂的短语或句子成分,因此,当整个集合都加载到内存当中时,多个单词的查询才会执行的更快。

数量限制

每一个集合,只能有一个文本索引

Hints

包含文本索引的查询语句,不能使用hint指定查询使用的索引。

排序性能

文本索引,不能够提高排序操作的性能。

字符序

文本索引,只支持二进制比较,不支持字符序选项。当用户使用其他字符序创建集合时,为该集合添加文本索引,必须指定简单字符序。

db.createCollection(
  "collectionTest", 
  {
    collation: {locale: "en"}
  }
)

db.collectionTest.createIndex(
  {
    quotes: "text"
  }, 
  {
    collation: {locale: "simple"}
  }
)

数据库版本

不同版本的数据支持文本索引版本不同。下表描述了不同数据库版本和索引版本的对应关系。

|--------|------------------|
| 文本索引版本 | 描述 |
| 版本3 | mongodb 3.2版本或以后 |
| 版本2 | mongodb2.6到3.0 |
| 版本1 | mongodb 2.4 |

用户添加文本索引时,用下面的语法指定默认的文本索引版本

db.<collection>.createIndex(
  {
    <field>: "text"
  }, 
  {
    "textIndexVersion": <version>
  }
)

这里列举了一个版本2的应用方式

db.test.createIndex(
  {
    "content": "text"
  }, 
  {
    "textIndexVersion": 2
  }
)

应用

构建集合blog并插入数据

db.blog.insertMany([
    { 
        _id: 1, 
        content: "This is a blog post about MongoDB",
        about:  "MongoDB",
        keywords: ["MongoDB", "database", "NoSQL"]
    },
    { 
        _id: 2, 
        content: "This is a blog post about MongoDB and Python",
        about:  "MongoDB",
        keywords: ["MongoDB", "Python"]
    },
    { 
        _id: 3, 
        content: "This is a blog post about NoSQL databases",
        about:  "NoSQL",
        keywords: ["NoSQL", "database"]
    }
])

为blog集合添加文本索引

db.blog.createIndex({content: "text"})

使用文本索引查询

db.blog.find({$text: {$search: "MongoDB"}})

删掉文本索引,并创建一个复合索引

db.blog.dropIndex("content_text")

db.blog.createIndex({content: "text", about: "text", keywords: "text"})
相关推荐
ℳ₯㎕ddzོꦿ࿐1 小时前
解决Python 在 Flask 开发模式下定时任务启动两次的问题
开发语言·python·flask
CodeClimb1 小时前
【华为OD-E卷 - 第k个排列 100分(python、java、c++、js、c)】
java·javascript·c++·python·华为od
一水鉴天1 小时前
为AI聊天工具添加一个知识系统 之63 详细设计 之4:AI操作系统 之2 智能合约
开发语言·人工智能·python
Channing Lewis2 小时前
什么是 Flask 的蓝图(Blueprint)
后端·python·flask
B站计算机毕业设计超人2 小时前
计算机毕业设计hadoop+spark股票基金推荐系统 股票基金预测系统 股票基金可视化系统 股票基金数据分析 股票基金大数据 股票基金爬虫
大数据·hadoop·python·spark·课程设计·数据可视化·推荐算法
加酶洗衣粉2 小时前
MongoDB部署模式
数据库·mongodb
我要出家当道士2 小时前
MongoDB 备份与恢复综述
mongodb·数据库灾备
Suyuoa2 小时前
mongoDB常见指令
数据库·mongodb
添砖,加瓦2 小时前
MongoDB详细讲解
数据库·mongodb
我的运维人生2 小时前
MongoDB深度解析与实践案例
数据库·mongodb·运维开发·技术共享