Python在AI中的应用--使用决策树进行文本分类

Python在AI中的应用--使用决策树进行文本分类

文本分类

文本分类是将文本文档分类为预定义类别的过程。

文本分类涉及,根据文本文档的内容,为其分配预定义的类别或标签。

决策树

决策树是分层树结构,它根据输入特征的值,递归地划分特征空间。由于其简单性、可解释性和处理非线性关系的能力,它们特别适合分类任务。

决策树为文本分类提供了清晰易懂的模型,使其成为可解释性与预测能力同样重要的任务的绝佳选择。然而,它们固有的简单性,可能会在处理非常复杂,或微妙的文本数据时,带来挑战。

什么是决策树

决策树是一种非参数监督学习算法,可用于分类和回归任务。它具有分层的树结构,由根节点、分支、内部节点和叶节点组成。

看下列的一个例子,假设您正在尝试评估是否一个动物是家猫,您可以使用以下决策规则来做出选择:

这种类型的流程图结构还创建了一种易于理解的决策表示形式,使组织中的不同团队能够更好地理解做出决策的原因。

决策树学习采用分而治之的策略,通过进行贪婪搜索,识别树内的最佳分裂点。然后以自上而下、递归的方式,重复此拆分过程,直到所有,或大多数记录都被分类到特定的类标签下。是否所有数据点都被分类为同质集,很大程度上取决于决策树的复杂性。较小的树更容易获得纯叶节点,即单个类中的数据点。

随着树的大小增长,保持这种纯度变得越来越困难,并且通常会导致给定子树内的数据太少。发生这种情况时,称为数据碎片,通常会导致过度拟合。因此,决策树对小树有偏好,这与奥卡姆剃刀中的简约原则是一致的;也就是说,"如无必要,不应增加实体"。换句话说,决策树仅在必要时,才应增加复杂性,因为最简单的解释通常是最好的。为了降低复杂度,并防止过度拟合,通常会采用剪枝的方法;这是一个过程,它删除了在重要性较低的特征上分裂的分支。然后可以通过交叉验证过程来评估模型的拟合度。

决策树保持准确性的另一种方法是通过随机森林算法形成集成;该分类器可以预测更准确的结果,特别是当各个树彼此不相关时。

scikit

Scikit-learn 是一个流行且强大的机器学习库,拥有大量算法,以及用于 ML 可视化、预处理、模型拟合、选择和评估的工具。

  • 算法:包括各种分类、回归和聚类算法,例如支持向量机、随机森林、梯度提升、k-means 和 DBSCAN
  • 工具:提供模型拟合、选择、评估和数据预处理的工具
  • 集成:与其他 Python 库集成良好,例如 NumPy、SciPy、Pandas 和 Matplotlib
  • 易于使用:拥有一致的 API、广泛的文档和许多在线教程
  • 平台:适用于 Linux、MacOS 和 Windows

算法

Scikit-learn 基于 NumPy、SciPy 和 matplotlib 构建,具有许多用于分类、回归和聚类的有效算法。

其中包括支持

  • 支持向量机(Support Vector Machines),支持向量机 (SVM) 算法是一种监督机器学习算法,通过查找,将数据点分为不同类的超平面,来对数据进行分类。目标是,最大化超平面和每个类最近的数据点之间的距离。

  • 雨林(rain forests), 是一种当数据集太大,而无法容纳在内存中时,通过分割分割数据集,构建决策树的说法,不需要整个数据集,来做出分裂决策,只需要一些汇总信息,比如·一个属性的AVC集,如果有更多内存,可以使为属性 AVC组。

  • 梯度提升(Gradient boosting),梯度提升是一种机器学习算法,它结合多个弱模型,来创建更准确、更高效的预测模型。这是一种强大的技术,用于解决复杂的回归和分类问题。

  • k 均值(K-means),K-means 是一种无监督学习算法。它试图在数据中找到离散的分组,在同一组中的成员彼此尽可能相似,并且与其他组的成员尽可能不同。

  • DBSCAN(Density-based spatial clustering of applications with noise),DBSCAN是一种基于密度的聚类算法,它根据数据点彼此的接近程度,将数据点分组在一起。它的工作原理是,识别核心点,并在它们周围扩展集群,核心点就是指定半径内,具有最少数量相邻点的点。

AVC(Attribute-Value Class)集是RainForest提供了一个重要的概念。 AVC特定n个节点的属性集合,由具有不同属性值a和的数据的数量来表征不同的班级。第n个节点的AVC组是由具有第n个节点的所有AVC集合组成的组合集合。和AVC 集的定义,RainForest 算法设法区分决策树中的可扩展性问题来自决策树的质量问题。

Scikit-learn 因其一致且高效设计的 API、大多数算法的广泛文档,以及大量在线教程而拥有相对易于开发的优势。

当前版本可用于流行的平台,包括 Linux、MacOS 和 Windows。

使用scikit的决策树进行文章分类

在 Python 中使用决策树进行文本分类,我们将使用流行的 20 Newsgroups 数据集。该数据集包含大约 20,000 个新闻组文档,分为 20 个不同的新闻组。我们将使用 scikit-learn 获取数据集,预处理文本,使用 TF-IDF 向量化将其转换为特征向量,然后应用决策树分类器进行分类。

一个文本分类的Python代码

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score
import matplotlib.pyplot as plt
import numpy as np

class TEXT_CATALOG():
    DATA_HOME='C:\devs\python_devs\server_client\multi_threads\scikit_dataset'
    def load_dataset(self):
        self.categories = ['sci.crypt', 'rec.autos', 'comp.graphics', 'sci.med', 'misc.forsale']
        data = self.newsgroups_train = fetch_20newsgroups(data_home=TEXT_CATALOG.DATA_HOME, subset='train', categories=self.categories, remove=('headers', 'footers', 'quotes'))
        
        self.newsgroups_test = fetch_20newsgroups(data_home=TEXT_CATALOG.DATA_HOME, subset='test', categories=self.categories, remove=('headers', 'footers', 'quotes'))

    def feature_extraction(self):
        vectorizer = TfidfVectorizer(stop_words='english')
        self.X_train = vectorizer.fit_transform(self.newsgroups_train.data)
        self.X_test = vectorizer.transform(self.newsgroups_test.data)
        self.y_train = self.newsgroups_train.target
        self.y_test = self.newsgroups_test.target
        
    def class_plot(self):
        class_distribution = np.bincount(self.y_train)
        plt.bar(range(len(class_distribution)), class_distribution)
        plt.xticks(range(len(class_distribution)), self.newsgroups_train.target_names, rotation=45)
        plt.title('Distribution of Classes in Training Set')
        plt.xlabel('Class')
        plt.ylabel('Number of Documents')
        plt.show()

    def decision_tree(self):
        self.clf = DecisionTreeClassifier(random_state=42)
        self.clf.fit(self.X_train, self.y_train)

    def apply_metrics(self):
        y_pred = self.clf.predict(self.X_test)
        # Evaluate the model
        print("Accuracy:", accuracy_score(self.y_test, y_pred))
        print("\nClassification Report:\n", classification_report(self.y_test, y_pred, target_names=self.newsgroups_test.target_names))

    def run_catalog(self):
        self.load_dataset()
        self.feature_extraction()
        self.decision_tree();
        self.apply_metrics();
        self.class_plot()
    

if __name__ == "__main__":
    cat = TEXT_CATALOG()
    cat.run_catalog()

使用的scikit APIs说明

装入数据集

scikit-learn提供了20个新闻组文本数据集。该数据集包含关于20个主题的,约18000个新闻组帖子,分为两个子集:一个用于训练,一个用于测试。

为了简单并降低计算成本,我们选择 7 个主题的子集并仅使用训练集。

scikit-learn提供了下列的Python API装入数据集

词法: sklearn.datasets.fetch_20newsgroups(*, data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True, return_X_y=False)

参数说明

  • data_home,str 或类似路径,默认=无,指定数据集的下载和缓存文件夹。如果没有,所有 scikit-learn 数据都存储在"~/scikit_learn_data"子文件夹中。
  • subset,子集{'训练','测试','全部'},默认='训练',选择要加载的数据集:"train"表示训练集,"test"表示测试集,"all"表示两者,并且排序已打乱。
  • categories,类数组,dtype=str,默认=None如果无(默认),则加载所有类别。如果不是"无",则要加载的类别名称列表(忽略其他类别)。
  • shufflebool,默认=True,是否对数据进行洗牌:对于假设样本独立且同分布 (i.i.d.) 的模型可能很重要,例如随机梯度下降。
  • random_state,int,RandomState实例或None,默认= 42 确定数据集改组的随机数生成。传递一个 int 以在多个函数调用中实现可重现的输出。请参阅术语表。
  • remove,删除元组,默认=() 可以包含("页眉"、"页脚"、"引号")的任何子集。每一种文本都会被检测到并从新闻组帖子中删除,以防止分类器过度拟合元数据。"headers"删除新闻组标题,"footers"删除帖子末尾看起来像签名的块,"quotes"删除似乎引用其他帖子的行。"标题"遵循精确的标准;其他过滤器并不总是正确的
  • download_if_missingbool,默认=True, 如果为 False,则在数据在本地不可用时引发 OSError,而不是尝试从源站点下载数据。
  • return_X_y,bool,默认=False。如果为 True,则返回 (data.data, data.target) 而不是 Bunch 对象。

返回值说明

类似字典的对象,具有以下属性。

  • datalist,形状数据列表 (n_samples,) 学习资料清单。
  • target:,形状为 (n_samples,) 的 ndarray目标标签。
  • filenames,形状列表(n_samples,)数据位置的路径。
  • DESCR, str 数据集的完整描述。
  • target_names:形状列表(n_classes,)目标类的名称。
  • (data, target),元组如果 return_X_y=True,两个 ndarray 的元组。第一个包含形状 (n_samples, n_classes) 的二维数组,每行代表一个样本,每列代表特征。第二个形状数组 (n_samples,) 包含目标样本。

决策树算法类

类构造器:

词法:class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, class_weight=None, ccp_alpha=0.0, monotonic_cst=None)

参数说明

  • criterion,可选择的值为,{"gini","entropy","log_loss"},默认值为"gini"。测量分割质量的函数。支持:

    "gini", 基尼杂质

    "log_loss",香农信息增益

    "entropy",香农信息增益

  • splitter,可选择的值为,{"best", "random"},默认值为"best"。用于在每个节点选择分裂的策略。支持的策略是

    "best",选择最佳分割

    "random",选择最佳随机分割

  • max_depth,该变量类型是int,默认值为None。表示树的最大深度。如果值为None,则扩展节点,直到所有叶子都是纯的,或直到所有叶子包含少于 min_samples_split 样本。

  • min_samples_split,该变量类型是int 或 float,默认值为2。分裂一个内部节点所需的最小样本数。

    如果是 int,则将 min_samples_split 视为最小数量。

    如果是浮点数,则 min_samples_split 是一个分数,而 ceil(min_samples_split * n_samples) 是每次分割的最小样本数。

  • min_samples_leaf,该变量类型是int 或 float,默认值为1。叶节点所需的最小样本数。任何深度的分割点,只有在左右分支中,至少留下min_samples_leaf训练样本时,才会考虑分割。

    如果是 int,则将 min_samples_leaf 视为最小数量。

    如果是浮点数,则 min_samples_leaf 是一个分数,ceil(min_samples_leaf * n_samples) 是每个节点的最小样本数。

  • min_weight_fraction_leaf,该变量类型是float,默认值为0.0。叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。

  • max_features,该变量类型是int、float 或 {"sqrt"、"log2"},默认值为None。寻找最佳分割时,要考虑的特征数量:

    如果是int,则考虑每次分割的max_features个特征。

    如果是浮点型,则 max_features 是一个分数,每次分割考虑 max(1, int(max_features * n_features_in_)) 个特征。

    如果"sqrt",则 max_features=sqrt(n_features)。

    如果"log2",则 max_features=log2(n_features)。

    如果None,则 max_features=n_features。

  • random_state,该变量类型是int,RandomState实例或None,默认值为None。控制估计器的随机性。即使分割器设置为"best",在每次拆分时,总是随机排列这些特征。当 max_features < n_features 时,在找到最佳分割之前,算法将在每次分割时,随机选择 max_features个特征。但是,即使 max_features=n_features,找到的最佳分割,也可能在不同的运行中,有所不同。为了在拟合过程中,获得确定性行为,random_state 必须固定为一个整数。

  • max_leaf_nodes,该变量类型是int,默认值为None。以最佳优先的方式,产生具有 max_leaf_nodes 的树。最佳节点定义为,相对杂质更少的节点。如果值为None,则叶节点数量不受限。

  • min_impurity_decrease,该变量类型是float,默认值为0.0。如果分裂导致杂质减少大于或等于该值,则节点将被分裂。加权杂质减少方程如下:

    N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)

    其中N是样本总数,N_t是当前节点的样本数,N_t_L是左子节点中的样本数,N_t_R是右子节点中的样本数。

    如果传递了sample_weight,则N、N_t、N_t_R和N_t_L均指加权和

  • class_weightdict,dict, list of dict or "balanced",默认值为None。以{class_label:weight}形式,与类关联的权重。如果值是None,则所有类别的权重都应该为1。对于多输出问题,可以按照与 y 的列相同的顺序,提供字典列表。

    对于多输出,应为其自己的字典中,每列的每个类定义权重。例如,对于四类多标签分类,权重应为 [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}],而不是 [{1:1}、{2:5}、{3:1}、{4:1}]。

    "balanced"模式,使用 y 的值自动调整权重,它们与输入数据中的类别频率成反比,即 n_samples / (n_classes * np.bincount(y))

    对于多输出,y的每一列的权重都会相乘。

    如果指定了sample_weight,这些权重将与sample_weight相乘。

  • ccp_alpha,non-negative float,默认值为0.0。是一个复杂性参数,用于最小成本复杂性剪枝。选择具有最大成本复杂度小于ccp_alpha的子树。默认情况下,不执行剪枝。

  • monotonic_cst,array-like of int of shape (n_features),默认值为None。指示对每个特征强制执行的单调性约束。

    1:单调增加

    0:无限制

    -1:单调递减

    如果 monotonic_cst 为 None,则没有任何约束。

    不支持单调性约束:

    多类分类(即当 n_classes > 2 时),

    多输出分类(即当 n_outputs_ > 1 时),

    对缺失值的数据进行分类训练。

构造决策树分类器

fit(X, y, sample_weight=None, check_input=True),从训练数据集 (X, y) ,构建决策树分类器。

参数说明

  • X,{array-like, sparse matrix} of shape (n_samples, n_features)。X是训练输入样本。在内部,它将转换为 dtype=np.float32 并且如果将稀疏矩阵提供给稀疏 csc_matrix。

  • y,array-like of shape (n_samples,) or (n_samples, n_outputs)。y是目标值或类标签,值为整数,或字符串。

  • sample_weight,形状类似数组 (n_samples,),默认值为None。是样本权重。如果值是None,则样本的权重相等。在每个节点中搜索分割时,如果分割产生的子节点的权重为零或负值,则不进行分割。如果拆分会导致,任何子节点中的任何单个类有负权重,则也不进行分割。

  • check_input,该变量类型是bool,默认值为True。允许绕过多个输入检查。除非您知道自己在做什么,否则不要使用此参数。

产生输出

词法:predict(X, check_input=True)

predict对测试数据集X做出预测,返回类,或回归值。

对于分类模型,返回 X 中每个样本的预测类别。对于回归模型,返回基于 X 的预测值。

参数说明

  • X,{array-like, sparse matrix} of shape (n_samples, n_features)。X是测试的输入样本。在内部,它将转换为 dtype=np.float32。

  • check_input,该变量类型是bool,默认值为True。允许绕过多个输入检查。除非您知道自己在做什么,否则不要使用此参数。

  • 返回值,array-like of shape (n_samples,) or (n_samples, n_outputs)。它是预测类别,或预测值。

评估输出结果

分类准确度

sklearn.metrics.accuracy_score(y_true, y_pred, *, normalize=True, sample_weight=None)

accuracy_score给出分类准确度分数。

在多标签分类中,此函数计算子集精度:为样本预测的标签集,必须与 y_true 中相应的标签集完全匹配。

参数说明

  • y_true,1d array-like, or label indicator array / sparse matrix。正确的标签。

  • y_pred,1d array-like, or label indicator array / sparse matrix。预测标签,由分类器返回。

  • normalize,该变量类型是bool,默认值为True。如果为 False,则返回正确分类的样本数。否则,返回正确分类样本的分数。

  • sample_weight,array-like of shape (n_samples,),默认值为None。样本权重。

  • 返回,返回值类型是float or int。

    如果normalize == True,则返回正确分类样本的分数(float),否则,返回正确分类样本的数量(int)。最佳性能为 1。

分类文字评估报告

词法:sklearn.metrics.classification_report(y_true, y_pred, *, labels=None, target_names=None, sample_weight=None, digits=2, output_dict=False, zero_division='warn')

classification_report构建显示主要分类指标的文字报告。

参数说明

  • y_true,1d array-like, or label indicator array / sparse matrix。正确的目标值。

  • y_pred,1d array-like, or label indicator array / sparse matrix。分类器返回的估计目标。

  • labels,array-like of shape (n_labels,),默认值为None。报告中的可选标签索引列表。

  • target_names,array-like of shape (n_labels,), 默认值为None。与标签匹配的可选显示名称,相同顺序。

  • sample_weight,array-like of shape (n_samples,),默认值为None。样本权重。

  • digits,该变量类型是int,默认值为2。用于格式化输出浮点值的位数。当output_dict为True时,这将被忽略,并且返回的值,将不会被舍入。

  • Zero_division,{"warn", 0.0, 1.0, np.nan},默认值为"warn"。当除零时,zero_division就是返回值。如果设置为"warn",则其作用为 0,但也会产生警告。

  • output_dict,该变量类型是bool,默认值为False。如果为 True,则以 dict 形式,返回输出。

  • 返回,该返回类型是str 或 dict。每个类别的准确率、召回率、F1 分数的文本摘要。如果 output_dict 为 True,则返回字典。字典具有以下结构:

下面展示一些 内联代码片

{'label 1': {'precision':0.5,
             'recall':1.0,
             'f1-score':0.67,
             'support':1},
 'label 2': { ... },
  ...
}
相关推荐
神奇夜光杯5 分钟前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
正义的彬彬侠7 分钟前
《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析
人工智能·决策树·机器学习·集成学习·boosting·xgboost
千天夜17 分钟前
使用UDP协议传输视频流!(分片、缓存)
python·网络协议·udp·视频流
Debroon17 分钟前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
测试界的酸菜鱼20 分钟前
Python 大数据展示屏实例
大数据·开发语言·python
羊小猪~~24 分钟前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习
AI小杨25 分钟前
【车道线检测】一、传统车道线检测:基于霍夫变换的车道线检测史诗级详细教程
人工智能·opencv·计算机视觉·霍夫变换·车道线检测
晨曦_子画30 分钟前
编程语言之战:AI 之后的 Kotlin 与 Java
android·java·开发语言·人工智能·kotlin
道可云31 分钟前
道可云人工智能&元宇宙每日资讯|2024国际虚拟现实创新大会将在青岛举办
大数据·人工智能·3d·机器人·ar·vr
人工智能培训咨询叶梓41 分钟前
探索开放资源上指令微调语言模型的现状
人工智能·语言模型·自然语言处理·性能优化·调优·大模型微调·指令微调