【Python快速入门和实践012】Python常用脚本-目标检测之查看数据集标签类别及对应数量

一、功能介绍

这段代码的功能是从指定的目录中读取所有的XML文件,并统计这些文件中特定标签(<object>标签内的<name>标签)的内容和出现次数。

二、代码

python 复制代码
import os
import xml.etree.ElementTree as ET
import glob


def count_num(indir):
    label_list = []

    # 更改当前工作目录到指定的目录
    os.chdir(indir)

    # 获取当前目录下所有的文件名
    annotations = os.listdir('.')

    # 使用glob获取当前目录下所有的XML文件
    annotations = glob.glob('*.xml')

    # 初始化一个空字典来存储各个标签的计数
    dict = {}

    # 遍历所有的XML文件
    for i, file in enumerate(annotations):

        # 打开XML文件
        in_file = open(file, encoding='utf-8')

        # 解析XML文件
        tree = ET.parse(in_file)

        # 获取XML文档的根节点
        root = tree.getroot()

        # 遍历XML文档中的所有<object>元素
        for obj in root.iter('object'):

            # 获取<object>元素内的<name>标签文本
            name = obj.find('name').text

            # 如果标签名已经存在于字典中
            if name in dict.keys():

                # 将该标签名对应的值加一
                dict[name] += 1

                # 如果标签是'face',则打印出文件名
                if name == 'face':
                    print(file)

            else:

                # 如果标签名不在字典中,则添加该标签名并将值设为1
                dict[name] = 1

                # 如果标签是'face',则打印出文件名
                if name == 'face':
                    print(file)

    # 打印所有标签名及对应的数量
    print("各类标签的数量分别为:")
    for key in dict.keys():
        print(key + ': ' + str(dict[key]))
        label_list.append(key)

    # 打印所有不同的标签名称
    print("标签类别如下:")
    print(label_list)


# 主程序入口
if __name__ == '__main__':
    # 设置输入目录
    indir = r'E:\pythonProject\pythonProject\NEU-DET\xmls'

    # 调用函数统计各类标签数目
    count_num(indir)

以东北大学钢材表面缺陷检测数据集为例,设置好xml文件夹的绝对路径,运行结果如下:

相关推荐
计算机安禾1 分钟前
【数据结构与算法】第44篇:堆(Heap)的实现
c语言·开发语言·数据结构·c++·算法·排序算法·图论
ZC跨境爬虫1 分钟前
海南大学交友平台开发实战 day9(头像上传存入 SQLite+BLOB 存储 + 前后端联调避坑全记录)
前端·数据库·python·sqlite
FreakStudio2 分钟前
嘉立创开源:应该是全网MicroPython教程最多的开发板
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy
上天_去_做颗惺星 EVE_BLUE8 分钟前
接口自动化测试全流程:pytest 用例收集、并行执行、Allure 报告合并与上传
python·pytest
chushiyunen12 分钟前
python fastapi使用、uvicorn
开发语言·python·fastapi
成都易yisdong14 分钟前
实现三北方向转换计算器(集成 WMM2025 地磁模型)
开发语言·windows·算法·c#·visual studio
白露与泡影19 分钟前
2026 全新 Java 面试题汇总(含答案)
java·开发语言
jinanwuhuaguo26 分钟前
OpenClaw 2026年4月升级大系深度解读剖析:从“架构重塑”到“信任内建”的范式跃迁
android·开发语言·人工智能·架构·kotlin·openclaw
geovindu37 分钟前
go: Simple Factory Pattern
开发语言·后端·设计模式·golang·简单工厂模式
咕白m62537 分钟前
Python 高效添加与管理 Excel 工作表
后端·python