【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——下

1.从某超市顾客中随机抽取5名,他们的购物篮数据的二元0/1表示如下:

|---------|--------|--------|--------|--------|--------|--------|
| 顾客号 | 面包 | 牛奶 | 尿布 | 啤酒 | 鸡蛋 | 可乐 |
| 1 | 1 | 1 | 0 | 0 | 0 | 0 |
| 2 | 1 | 0 | 1 | 1 | 1 | 0 |
| 3 | 0 | 1 | 1 | 1 | 0 | 1 |
| 4 | 1 | 1 | 1 | 1 | 0 | 0 |
| 5 | 1 | 1 | 1 | 0 | 0 | 1 |

某学生依据这些数据做关联分析,考虑规则{牛奶,尿布}->{啤酒},请计算该规则的支持度(support)、置信度(confidence)。

可以这样看:

T1 {面包,牛奶}

T2 {面包,尿布,啤酒,鸡蛋}

T3 {牛奶,尿布,啤酒,可乐}

T4 {面包,牛奶,尿布,啤酒}

T5 {面包,牛奶,尿布,可乐}

对于规则{牛奶,尿布}->{啤酒},X = {牛奶,尿布},Y = {啤酒}。

支持度(Support): 是指同时包含X和Y的事务在总事务中的比例。

置信度(Confidence): 是指包含X的事务同时也包含Y的比例。

支持度(Support):

Support(牛奶,尿布→啤酒)=2/5​=0.4

置信度(Confidence):

Confidence(牛奶,尿布→啤酒)=2/3​=0.667

2.

逻辑回归中,常用优势比OR(Odds Ratio)衡量因素作用大小的比数,即:

在一个具有17个家庭的样本里,共有3家的收入为10000元,5家的收入为11 000元,9家的收入为12 000元。在收入为10000元的家庭里,1个主妇不工作,2个主妇工作;在收入为11000元的家庭里,1个主妇不工作,4个主妇工作;在收入为12000元的家庭里,1个主妇不工作,8个主妇工作。

|--------------|------------|-----------|--------|
| 收入(单位:千) | 主妇工作情况 || 总计 |
| 收入(单位:千) | 0(不工作) | 1(工作) | 总计 |
| 10 | 1 | 2 | 3 |
| 11 | 1 | 4 | 5 |
| 12 | 1 | 8 | 9 |
| 总计 | 3 | 14 | 17 |

令收入为变量,X类别标签为工作状态。

(1)计算X为10和11时,优势比OR等于多少?

(2)计算X为11和12时,优势比OR等于多少?

优势比(Odds Ratio,OR)是用于衡量自变量对因变量影响程度的一种指标。它表示在不同自变量值情况下,事件发生的几率值之比。OR = (P1/(1-P1)) / (P0/(1-P0))

(1)

当X=10时,不工作的概率1-P0 = 1/3, 工作的概率为P0 = 2/3

当X=11时,不工作的概率1-P1 = 1/5, 工作的概率为P1 = 4/5

代入公式:

OR = (4/5 / 1/5)/ (2/3 / 1/3)

= 4 / 2

= 2

(2)

当X=11时,不工作的概率1-P0 = 1/5, 工作的概率为P0 = 4/5

当X=12时,不工作的概率1-P1 = 1/9, 工作的概率为P1 = 8/9

代入公式:

OR = (8/9 / 1/9) / (4/5 / 1/5)

= (8/1) /4

= 2

相关推荐
LaughingZhu2 分钟前
Product Hunt 每日热榜 | 2026-03-25
人工智能·经验分享·深度学习·神经网络·产品运营
蟑螂恶霸20 分钟前
Windows安装OpenCV 4.8
人工智能·windows·opencv
枫叶林FYL21 分钟前
【自然语言处理 NLP】第二章 经典NLP算法与特征工程(Classical NLP Algorithms)
人工智能·深度学习·机器学习
非著名程序员29 分钟前
阿里云重磅上线 Qoder 专家团模式,AI 编程进入组团作战时代
人工智能
AEIC学术交流中心1 小时前
【快速EI检索 | IEEE出版】2026年人工智能、智能系统与信息安全国际学术会议(AISIS 2026)
人工智能
火山引擎开发者社区2 小时前
李诞、何同学、小Lin说同台直播,解锁养虾新玩法!
人工智能
剑穗挂着新流苏3122 小时前
117_PyTorch 实战:利用训练好的模型进行单张图片验证
人工智能·python·深度学习
程序员cxuan2 小时前
人麻了,谁把我 ssh 干没了
人工智能·后端·程序员
数据皮皮侠3 小时前
中国城市间地理距离矩阵(2024)
大数据·数据库·人工智能·算法·制造
枫叶林FYL3 小时前
【乳腺癌早期筛查(钼靶X光图像AI识别)】第一章:钼靶AI核心算法架构演进——从2D全视野到3D断层合成与视觉Transformer
人工智能·深度学习