中图分类法的正则表达式参考

文章目录

[1. 中图分类法](#1. 中图分类法)
[2. 正则表达式](#2. 正则表达式)
[3. 使用方法](#3. 使用方法)
[4. 参考](#4. 参考)

1. 中图分类法

中图分类法，全称为《中国图书馆图书分类法》，简称《中图法》，是中国国内普遍采用的一种图书分类体系，用于组织和管理图书馆藏书，方便读者查找和借阅图书资料。它是一种按照学科性质和内容，结合图书资料本身的特点，将图书划分为多个类别，并使用汉语拼音字母与阿拉伯数字相结合的混合制号码进行标识的方法。

《中图法》最初起源于20世纪50年代，历经多次修订和完善，形成了较为成熟的分类体系。其基本结构包括五大部类：马列主义、毛泽东思想，哲学，社会科学，自然科学，综合性图书，并在此基础上进一步细分为22个基本大类。每个大类下面还有更加详细的二级、三级甚至更多级别的子类目。

分类法的目的是使同类图书集中在一起，便于图书管理和读者查找，同时也能体现学科之间的逻辑关系和知识体系的构建。随着图书情报学的发展和信息技术的应用，《中图法》也在不断修订更新以适应新的学术研究和信息服务需求。

一级类列表：

A: 马克思主义、列宁主义、毛泽东思想、邓小平理论
B: 哲学、宗教
C: 社会科学总论
D: 政治、法律
E: 军事
F: 经济
G: 文化、科学、教育、体育
H: 语言、文字
I: 文学
J: 艺术
K: 历史、地理
N: 自然科学总论
O: 数理科学和化学
P: 天文学、地球科学
Q: 生物科学
R: 医药、卫生
S: 农业科学
T: 工业技术
U: 交通运输
V: 航空、航天
X: 环境科学、安全科学
Z: 综合性图书

中图分类法作为一种图书分类法，旨在将图书馆藏书和其他资料按照主题或内容分类，以便更好地组织和检索图书馆的馆藏。更详细的中图分类号查询参考这里。

2. 正则表达式

目前对于中图分类号的正则表达式网上并没有找到可用的版本，我结合了中图分类号的一些通用规则写了一版正则表达式：

python 复制代码

patten = "((?:[A-KN-SU-VXZ][-/]?[0-9]{2,3}(?:.[0-9]{1,3})?)|(?:(?:T-0[19])|(?:T-1[89])|(?:T-29)|(?:T-6[235])|(?:T-9)|(?:T[B-V][-/]?[0-9]{1,3})))"

说明：这个表达式可以找出大部分的中图分类号，但是有误匹配的概率，对于大部分场景应该足够使用了！

3. 使用方法

以 Python 为例：

python 复制代码

text = "CAEBN：1-001-00-905700-0分类号：　I247.5 A849.13"
patten = "((?:[A-KN-SU-VXZ][-/]?[0-9]{2,3}(?:.[0-9]{1,3})?)|(?:(?:T-0[19])|(?:T-1[89])|(?:T-29)|(?:T-6[235])|(?:T-9)|(?:T[B-V][-/]?[0-9]{1,3})))"
code_list = re.findall(patten, text)
print(code_list)

输出：

bash 复制代码

['I247.5', 'A849.13']

4. 参考

http://www.ztflh.com/