数据挖掘英语及概念

分类 classify 上涨或跌

回归 regression 描述具体数值

分类模型评估

1.混淆（误差）矩阵 confusion matrix

2.ROC曲线 receiver operating characteristic curve 接收者操作特征曲线

3.AUC面积 area under curve ROC曲线下与坐标轴围成的面积，面积越大越好

DBN:深度信念网络 deep belief network

RBM:restricted Boltzman machine 受限玻尔兹曼机

CNN:卷积神经网络 convolution neural network

SAE:稀疏流自编码 Sparse Auto Encoder

算法 algorithm

拟合 fitting

过拟合 overfitting

欠拟合 underfitting

KDD知识发现 knowledge discovery in database

DM data mining

DL deep learning

ML machine learning

强度挖掘 intension Mining

关联规则挖掘association rule mining

FP-tree Frequent Pattern Tree

朴素贝叶斯：假设样本特征彼此独立，没有相关关系。

先验概率prior probability：根据以往经验和分析得到的概率

后验概率 posterior probability：事情已发生，判断事情发生时由哪个原因引起

联合概率joint probability：两个事情共同发生的概率

聚类方法 clustering

基于密度的方法：Density-based approach

围绕中心点划分Partitioning Around Medoids (PAM)

基于模型的方法：Model-based approach

AGNES (AGglomerative NESting)： 自底向上凝聚算法

DIANA (Divisive ANAlysis) 算法是典型的分裂聚类方法。

DBSCAN ： Density-Based Spatial Clustering of Applications with Noise，噪声环境下的密度聚类算法

Web内容挖掘（Web Content Mining）：对站点的Web页面的各类信息进行集成、概化、分类等，挖掘某类信息所蕴含的知识模式。

Web访问信息挖掘（Web Usage Mining）：Web访问信息挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘。通过分析日志记录中的规律，可以识别用户的忠实度、喜好、满意度，可以发现潜在用户，增强站点的服务竞争力。

Web结构挖掘（Web Structure Mining）： Web结构挖掘是对Web页面之间的链接结构进行挖掘。在整个Web空间里，有用的知识不仅包含在Web页面的内容之中，而且也包含在页面的链接结构之中。对于给定的Web页面集合，通过结构挖掘可以发现页面之间的关联信息，页面之间的包含、引用或者从属关系等。

信息检索（Information Retrieval，IR）

1. 给出下列英文缩写或短语的中文名称和简单的含义。

(1) Data Mining

数据挖掘。简单地说就是从大型数据中挖掘所需要的知识。

(2) Artificial Intelligence

人工智能。简单地说就是研究如何应用机器来模拟人类某些智能行为的基本理论、方法和技

术的一门科学。

(3) Machine Learning

机器学习。简单地说就是研究如何使用机器来模拟人类学习活动的一门学科。

(4) Knowledge Engineering

知识工程。简单地说就是研究知识信息处理并探讨开发知识系统的技术。

(5) Information Retrieval

信息检索。简单地说就是研究合适的信息组织并根据用户需求快速而准确地查找信息的技

术。通常指的是计算机信息检索，它以计算机技术为手段，完成电子信息的汇集、存储和查

找等的相关技术。

(6) Data Visualization

数据可视化。简单地说就是运用计算机图形学和图像处理等技术，将数据换为图形或图像在

屏幕上显示出来。它是进行人机交互处理、数据解释以及提高系统可用性的重要手段。

2. 给出下列英文缩写或短语的中文名称和简单的含义。

(1) OLTP( On-Line Transaction Processing)

联机事务处理。指在计算机系统中实时处理大量事务的技术。主要应用于处理日常的交易信

息，如银行转账、网上购物等。

(2) OLAP( On-Line Analytic Processing)

联机分析处理。是一种支持数据分析和决策支持系统的技术，通常用于多维数据分析。OLAP

允许用户从不同角度查询和分析数据，用于复杂的报告和数据挖掘

(3) Decision Support

决策支持。是指为帮助管理人员作出决策而提供的信息、数据分析工具和系统的综合过程。

它包括数据收集、处理和分析，支持业务决策。

(4) KDD( Knowledge Discovery in Databases)

数据库中的知识发现。是指从大量数据中自动或半自动地提取出有用的模式或知识的过程。

它结合了数据挖掘、统计分析和人工智能等技术。

(5) Transaction Database

事务数据库。是指用于存储事务性数据的数据库，通常用于支持事务处理系统。数据包括用

户的交易记录、账户操作等，数据库需要保证数据一致性和可靠性。(6) Distributed Database

分布式数据库。是指数据存储在不同位置的数据库系统，可以跨越多个计算机或地点进行管

理和访问。分布式数据库系统能够提高系统的可靠性、可扩展性和性能。

1. 简单地描述下列英文缩写或短语的含义。

(1) Parallel Association Rule Mining

并行关联规则挖掘。它是指利用并行处理技术、使用并行挖掘算法或在并行计算的环境下

完成数据的高效挖掘工作。

(2) Quantities Association Rule Mining

数量关联规则挖掘。它是指对含有诸如工资、价钱等非离散的数值属性的数据进行挖掘

的技术。数量关联规则挖掘需要解决连续属性的离散化等问题，有更广泛的商业应用。

(3) Frequent Itemset

频繁项目集。它是指出现频率高的项目对应的集合，反映交易数据中项目出现的频度信

息。挖掘频繁项目集是关联规则挖掘的基础，许多关联规则挖掘方法是基于频繁项目集发

现的。

(4) Maximal Frequent Itemset

最大频繁项目集。它是指在频繁项目集中不出现相互包含的项目子集。最大频繁项目集

可以使用最少的信息来保证频度信息的不丢失。

(5) Closed Itemset

关闭(或闭合)项目集。简单地说，对于一个关闭项目集的任何元素，要么不被任何元素所

包含，要么只被小于它的支持度的元素所包含。

2. 解释下列概念

(1) 多层次关联规则

Multilevel Association Rules 关注不同抽象层次的规则

(2) 多维关联规则

Multidimensional Association Rules 关注多个维度（如时间、地点等）之间的规则

(3) 事务数据库

Transactional Database 记录各种交易或事件的数据库

(4) 购物篮分析

Market Basket Analysis 分析商品购买之间的关联

(5)强关联规则

Strong Association Rules 具有高支持度、置信度和提升度的有用规则

1. 简单地描述下列英文缩写或短语的含义。

(1) Data Classification

数据分类。用分类模型(也常常称为分类器)把数据库中的数据项映射到给定类别中的某一个

类别。

(2) k-Nearest Neighbors

k-最邻近方法。它是一种基于距离的分类算法。

(3) Decision Tree

决策树。决策树是一种类似于流程图的树结构，其中每个内部结点表示在一个属性上的测试，

每个分支代表一个测试输出，而每个树叶结点代表类或类分布。树的最顶层结点是根结点。

决策树表示方法是分类中应用最广泛的方法之一。

(4) Entropy

熵。在信息论中，熵是一种信息度量单位。在决策树构造算法中根据熵值来计算信息增益。

(5) Posterior Probability

后验概率。后验概率又被称为条件概率，是在已知结果发生的情况下，求导致结果的某种原

因的可能性的大小

1. 简单地描述下列英文缩写或短语的含义。

(1) Partitioning Method

划分法。它将数据划分为k个组，同时满足如下的要求：每个组至少包含一个对象；每个对

象必须属于且只属于一个组。

(2) Hierarchical Method

层次法。它是对给定数据对象集合进行层次的分解。其基本思想是将模式样本按距离准则逐

步聚类，直到满足分类要求为止。根据层次的分解如何形成，层次的方法又可以分为凝聚的

和分裂的。

(3) Density-based Method

基于密度的方法。它将具有相同密度域的连通区域作为一簇。因此，它需要扫描整个数据集，

将数据空间划分为不同的小方格，并使用小方格的并集来近似表示簇。

(4) Grid-based Method

基于网格的方法。这种方法首先将数据空间划分成为有限个单元( Cell)的网格结构，所有

的处理都是以单个单元为对象的。这样处理的一个突出优点是处理速度快，通常与目标数据

库中记录的个数无关，只与把数据空间分为多少个单元有关。

2. 简单地描述下列英文缩写或短语的含义。

(I) PAM

PAM (Partitioning Around Medoids)

含义：PAM是一种聚类算法，类似于K-means，但它通过选择实际的样本点作为中心（称为

"medoids"）来进行聚类，而不是计算均值（如K-means）。PAM的目标是将数据集分成K个簇，

使得每个簇中的所有数据点与簇中心的距离最小化。

(2) STING

STING (Statistical Information Grid)

含义：STING是一种用于空间数据挖掘的聚类算法，特别适用于处理地理信息系统（GIS）或

空间数据集。该算法通过将空间区域划分成多个网格，并在网格内进行统计信息计算，从而

快速识别数据的聚类结构。STING采用自底向上的方式，结合空间和统计信息进行聚类。

(3) DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

含义：DBSCAN是一种基于密度的聚类算法，它通过密度来定义簇。该算法的核心思想是：密

集区域内的点属于同一簇，而稀疏区域的点则被视为噪声或离群点。DBSCAN不需要预先指定

簇的数量，而是根据数据的密度自动发现簇的结构。DBSCAN需要两个参数：ε（半径阈值）

和MinPts（密度阈值，即簇的最小点数）。