一、专业术语
OLAP (On-Line Analytical Processing)
- 定义:联机分析处理,是一种数据仓库技术,通过对数据的大量分析,得出分析报告,提供决策支持。
- 侧重:侧重于数据分析能力,如用户行为分析等。
- 与OLTP对比:与OLTP(联机事务处理)不同,OLTP主要关注在线事务处理和小批量数据操作,如银行交易、电商会员注册等。
BI (Business Intelligence)
- 定义:商业智能,是企业利用现代信息技术收集、管理和分析商务数据和信息,以改善商务决策水平,提升商务绩效。
- 功能:能将企业的运营数据转化为信息或知识,辅助企业做出明智的业务经营决策。
- 技术基础:包括ETL技术、数据仓库技术、OLAP技术、数据挖掘技术等。
Data Mining
- 定义:数据开采,是从大量不完全、有噪声、模糊、随机的数据中提取隐含的、有用的信息和知识的过程。
- 任务:包括数据总结、分类、关联分析和聚类等。
- 目标:发现隐藏于数据后的规律或数据间的关系,以服务于决策。
PageRank
- 定义:网页排名算法,由Google公司创始人发明,用于评估网页的重要性和相关性。
- 原理:基于网页之间的相互超链接关系来确定页面的等级。
- 应用:在搜索引擎优化中,用于评估网页优化的成效。
Classification
- 定义:分类,是机器学习中的一个重要任务,将数据集划分为不同的类别或标签。
- 方法:包括监督分类法、非监督分类法等。
- 应用:广泛应用于图像识别、文本分类、生物信息学等领域。
FP-tree
- 定义:频繁模式树,是FP-growth算法中用于存储查找频繁项集所需信息的树结构。
- 结构:包括根节点、项前缀子树和频繁项头表。
- 应用:在数据挖掘中,用于发现数据集中的频繁项集。
SVR (Support Vector Regression)
- 定义:支持向量回归,是支持向量机(SVM)的一个重要应用分支,用于解决回归问题。
- 原理:通过在高维空间中寻找一个超平面,使得所有数据点到这个超平面的距离最小。
- 应用:在预测、建模等领域有广泛应用。
SEO (Search Engine Optimization)
- 定义:搜索引擎优化,是一种提高网站在搜索引擎中自然排名的方法。
- 手段:包括关键词优化、网站结构优化、内容优化等。
- 目标:增加网站的曝光度,提高网站的流量和转化率。
SEM (Search Engine Marketing)
- 定义:搜索引擎营销,是一种利用搜索引擎进行营销和推广的方法。
- 手段:包括搜索引擎广告(如Google AdWords)、付费链接等。
- 目标:通过付费手段增加网站的曝光度和点击率,实现品牌推广和销售增长。
Apriori
Apriori是一种用于关联规则学习的经典算法,它用于从大量数据集中挖掘物品之间的有趣关系,这些关系可以表示为蕴含式规则或关联规则。Apriori算法通过候选项集生成和剪枝,以及支持度-置信度框架来识别频繁项集和强关联规则。
C4.5
C4.5是一种决策树生成算法,它是ID3算法的扩展。C4.5算法使用了信息增益率作为选择属性的标准,解决了ID3算法中偏向于选择取值多的属性的问题。此外,C4.5还能处理连续型属性,并提供了对缺失值的处理机制。
K-means
K-means是一种无监督学习算法,用于将数据点划分为K个集群。主要步骤包括:随机选择K个初始质心,将数据点分配给最近的质心形成集群,重新计算每个集群的质心,重复上述过程直到质心不再变化或达到最大迭代次数。
SVM
SVM通过寻找一个决策超平面来最大化正负样本之间的间隔,从而进行分类。其优点包括:高维数据有效、不易过拟合、计算开销适中、适用于小样本学习。
PCA
PCA的主要目标是降低数据的维度,同时保留数据中的主要变化模式。实现过程包括:计算数据的协方差矩阵,找到协方差矩阵的特征向量和特征值,选择最重要的特征向量形成新的特征空间,将数据投影到新的特征空间。
RF
RF是一种基于决策树的集成学习算法,通过构建多棵决策树并进行投票来预测结果。其优点包括:抗过拟合、鲁棒性强、能够处理高维数据、易于并行化。
CRISP-DM
CRISP-DM代表"Cross-Industry Standard Process for Data Mining",即跨行业数据挖掘标准流程。六个阶段包括:业务理解(Business Understanding)、数据理解(Data Understanding)、数据准备(Data Preparation)、模型建立(Modeling)、评估(Evaluation)、部署(Deployment)。这一流程帮助指导数据挖掘项目从开始到实施的全过程。
二、计算题(均很简单,理解做法为主)
1. 给定一个交易数据集,其中包含以下交易记录(使用集合表示):{A, B, C}, {B, D}, {A, B, C, D, E}, {A, B}, {A, C, E}, {B, E},请计算项集{A, B}的支持度(假设数据集包含上述6条记录)。
项集{A, B}在数据集中出现的次数是3次,而数据集的总记录数是6条。因此,项集{A, B}的支持度为 3/6 = 1/2。
2. 使用Apriori算法,给定交易数据集{1, 2, 3}, {2, 3, 4}, {3, 4, 5},最小支持度为0.5,找出所有频繁二项集。
频繁一阶项集(候选): {1}, {2}, {3}, {4}, {5}
支持度计算大于0.5的,作为频繁一阶项集: {2}, {3}, {4}
生成二阶候选项集: {2, 3},{2, 4},{3, 4}
频繁二阶项集: {2, 3},{2, 4},{3, 4}(要求同样满足满足最小支持度0.5)
3. 基于天气条件(晴天、雨天)、温度(热、冷)和湿度(高、低)决定是否去打高尔夫。已知样本集:
晴天+热+低湿 → 打高尔夫
雨天+冷+高湿 → 不打
晴天+冷+高湿 → 不打
雨天+热+低湿 → 打高尔夫
使用ID3算法构建决策树
根节点选择温度,冷/热,因为划分能直接得出结论的样本最多,即信息增益最大。
决策树构建如下
温度 冷 热 不打高尔夫 打高尔夫在这个特定的例子中,湿度和天气特征虽然提供了额外信息,但基于给定样本集,温度是最优的划分标准,其他特征在此决策树中不被使用。
4. 给定数据点集合{(2,3), (3,5), (1,7), (5,8)},使用K-means算法,当K=2时,进行聚类。
初始化聚类中心,假设为{(2,3), (5,8)},
计算剩下两个点到两个中心的距离,分别分配给最近的中心聚类。
更新聚类中心为各组平均值:第一组{(2,3), (1,7)}的中心变为{(1.5,5)};第二组{(3,5), (5,8)}的中心变为{(4,6.5)}。
重复步骤2和3,直至聚类中心不再改变或达到迭代次数上限。最终聚类结果为两组:{(1.5,5)}和{(4,6.5)}周围的点。
5. 给定点A(1,1), B(-1,-1), C(0,1),使用支持向量机(SVM)构建一个线性分类器来最大化间隔。
由于只有三个点且可线性分离,直观上可以找到一个超平面将它们分类,例如y=x这条直线。
SVM会选择使得离超平面最近的点(支持向量)距离最大化的超平面。在本例中,点B和C为支持向量。
分类器方程可表示为w·x+b=0,其中w为法向量,b为偏置。对于y=x的情况,w=(1,-1),b=0。
最终SVM模型基于该直线进行分类,正类为y>x,负类为y<x。
6. 设有网页A、B、C,链接关系为A->B, B->C, C->A,且假设没有外链。若初始PR值均为1,d=0.85(阻尼因子),求一次迭代后的PageRank值。
根据PageRank公式,PR(A) = (1-d) + d*(PR(B)/1 + PR(C)/1),同理计算B和C的PR值。
因为初始PR值均为1,且每个页面仅有一个出链,所以迭代一次后:PR(A)=PR(B)=PR©=(1-0.85)+0.85*(1/1+1/1)=0.15+0.85*1=1。
注意,实际操作中会出现平分情况导致PR值不变,这里简化处理未考虑具体迭代计算中的细微调整,实际迭代计算应保持总和恒定,但示例中数值保持不变是为了简化说明。
三、综合题
1. 智慧畜牧场景中,牧场主发现不同饲料配比会影响牛奶的口味和营养价值。请你设计一个商业智能解决方案,以优化饲料配比,提升牛奶品质。
- 数据收集:首先,收集关于各种饲料成分(如蛋白质、脂肪、纤维含量)、不同饲料配比以及对应产出牛奶的口味评价和营养成分分析的数据。
- 数据预处理:清洗数据,处理缺失值,标准化数据格式,确保数据质量。
- 特征工程:构建特征,如饲料比例的比率、总营养成分等,可能影响牛奶口味和营养的关键因素。
- 模型建立:使用决策树或回归模型(如随机森林、梯度提升树)来预测不同饲料配比下的牛奶口味评分和营养指标。
- 优化算法:应用遗传算法或粒子群优化等优化方法,寻找最优饲料配比方案,目标是最优化牛奶的综合评分(结合口味和营养价值)。
- 验证与实施:对模型预测的最佳配比进行小规模实验验证,成功后推广至整个牧场,持续监控牛奶品质变化,并根据反馈调整模型。
- 可视化与报告:开发仪表板,展示各配比下的牛奶质量指标,便于管理层决策,同时定期生成报告,总结饲料配比调整的效果。
2. 设计一个针对链家、我爱我家等大型房地产公司的APP所用的数据仓库OLAP系统,以支持复杂查询和分析。
- 需求分析: 明确业务需求,如房源信息分析、客户偏好、市场趋势、销售业绩等。
- 数据模型: 采用星型或雪花型模型,中心事实表记录交易详情,维度表包括房源、客户、时间、区域等。
- 数据集成: ETL过程整合来自不同来源的数据,清洗转换后加载至数据仓库。
- OLAP设计: 采用多维立方体技术,设计维度(如时间、地区、价格区间)和度量(如销售额、浏览量、成交周期)。
- BI工具: 提供灵活的报表与仪表板,支持钻取、切片、旋转等OLAP操作,便于市场分析和决策支持。
- 性能优化: 数据分区、索引策略,以及并行处理能力,确保查询效率。
- 安全与合规: 实施严格的数据访问控制和加密措施,确保数据安全和隐私保护。
3. 针对银行信用卡盗刷欺诈问题,设计一个商业智能方案以识别异常交易并减少欺诈风险。
- 数据收集: 整合交易数据、用户行为数据、地理位置信息等多源数据。
- 特征工程: 提取关键特征,如交易时间异常、金额突变、频繁交易、跨国交易等。
- 模型构建: 应用机器学习模型,如随机森林、神经网络或集成学习,基于历史欺诈案例训练模型。
- 实时监测: 实现实时交易监控系统,结合规则引擎与模型预测,即时标记可疑交易。
- 风险评分: 为每笔交易生成风险评分,自动拦截高风险交易或提示人工审核。
- 反馈循环: 对误报和漏报交易进行分析,不断优化模型,实现自我学习和迭代。
- 用户交互界面: 提供直观的欺诈预警界面,让银行工作人员快速查看并处理预警信息。
- 合规与教育: 确保系统符合数据保护法规,同时通过用户教育提升持卡人防范意识。