Elasticsearch获取文档总数的方法示例

使用Elasticsearch客户端获取索引中文档总数,主要有两种方法Count API和 Search API。

这里尝试基于网络资料,分别给出两种方法的使用示例。

1 Count API

1.1 代码示例

Count API 直接返回匹配查询的文档数量,是最简单高效的方式。

代码示例如下所示

复制代码
from elasticsearch import Elasticsearch

# 创建客户端连接(根据实际配置修改)
es = Elasticsearch("http://localhost:9200")

# 获取索引 "my_index" 中的文档总数
response = es.count(index="my_index")
total_docs = response["count"]
print(f"文档总数: {total_docs}")

1.2 查询计数

如果需要对特定查询计数,可以在body中传入查询条件。

比如,{"query": {"match": {"status": "active"}}}

示例如下。

复制代码
response = es.count(index="my_index", body={"query": {"match": {"status": "active"}}})

2.1 代码示例

如熟悉搜索操作,也可以执行size=0搜索,并从响应hits.total中获取总数。

复制代码
response = es.search(
    index="my_index",
    body={
        "query": {"match_all": {}},   # 匹配所有文档
        "size": 0                     # 不返回文档内容
    },
    track_total_hits=True              # 确保返回精确总数(ES 7.x+)
)

total_docs = response["hits"]["total"]["value"]
print(f"文档总数: {total_docs}")

2.2 track_total_hits

使用Search API计数,则经常需要配合track_total_hits使用。

Elasticsearch 7.x 之前,默认返回的总数可能被截断,最多 10000,需要设置track_total_hits为 true或具体数值来获取精确总数。

在 7.x及更高版本中,track_total_hits默认为10000,即只返回最多 10000 的精确计数,设置为 True则返回精确总数,但可能影响性能。

但使用 Count API 则没有这个限制,始终返回精确计数。

3 完整示例

以下是带异常处理的完整示例。

复制代码
from elasticsearch import Elasticsearch, exceptions

def get_document_count(es_client, index_name):
    try:
        resp = es_client.count(index=index_name)
        return resp["count"]
    except exceptions.NotFoundError:
        print(f"索引 '{index_name}' 不存在")
        return 0
    except Exception as e:
        print(f"查询失败: {e}")
        return None

if __name__ == "__main__":
    es = Elasticsearch("http://localhost:9200")
    count = get_document_count(es, "my_index")
    if count is not None:
        print(f"文档总数: {count}")

需要注的是:

1)客户端版本

上述代码适用于elasticsearch-py 7.x 和 8.x。

8.x 中连接方式可能需要使用Elasticsearch("http://localhost:9200")或传入hosts参数。

2)性能

Count API 比 Search API 更轻量,建议优先使用。

3)精确性

Count API 总是返回精确计数,Search API 受 track_total_hits 影响,如果不设置可能只返回 10000以内的精确值。如果只是计数,Count API 是最简洁可靠的选择。

reference


Count API

https://www.elastic.co/guide/en/elasticsearch/reference/8.18/search-count.html

elasticsearch中的track_total_hits设置问题原创

https://cloud.tencent.cn/developer/article/2558206

count

https://pyes.readthedocs.io/en/stable/guide/reference/api/count.html

hits>total -限制为10000项纪录-提高上限

https://cloud.tencent.cn/developer/ask/sof/108579241

相关推荐
Elastic 中国社区官方博客17 小时前
Jina embeddings v3 现已在 Gemini Enterprise Agent Platform Model Garden 上可用
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
Elastic 中国社区官方博客20 小时前
使用 Elastic Observability 和 MCP 的 Agentic 驱动 Kubernetes 调查
数据库·elasticsearch·搜索引擎·云原生·容器·kubernetes·全文检索
Elastic 中国社区官方博客3 天前
使用 Remote Write 将 Prometheus 指标发送到 Elasticsearch
大数据·运维·elasticsearch·搜索引擎·全文检索·prometheus
登山人在路上3 天前
RAGAS 中的已知偏差详解
人工智能·全文检索·ai编程
金士镧(厦门)新材料有限公司3 天前
片状碳酸镧:一种“低调但很忙”的稀土材料
科技·安全·全文检索·生活·能源
JackSparrow4143 天前
使用Elasticsearch代替数据库like以加快查询的各种技术方案+实现细节
大数据·clickhouse·elk·elasticsearch·搜索引擎·postgresql·全文检索
Elastic 中国社区官方博客3 天前
Prometheus Remote Write 在 Elasticsearch 中的摄取原理
大数据·数据库·elasticsearch·搜索引擎·信息可视化·全文检索·prometheus
开开心心就好4 天前
这款PPT计时工具支持远程控制功能
前端·科技·游戏·edge·pdf·全文检索·powerpoint
Elastic 中国社区官方博客4 天前
Elasticsearch:使用 Agent Builder 的 A2A 实现 - 开发者的圣诞颂歌
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
历程里程碑4 天前
2. Git版本回退全攻略:轻松掌握代码时光机
大数据·c++·git·elasticsearch·搜索引擎·github·全文检索