数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili

一、Learning Resources

二、Data

  • 数据是最底层的一种表现形式。
  • 数据具有连续性。
  • 从存储上来讲,数据分为逻辑上的和物理层的。
  • 大数据:数据量大、产生速度快、数据种类多、

三、The Process of Data Mining

四、clustering聚类

聚类:把一堆数据分为一组一组的(没有标签)

层次性聚类:

一个一个单独的elements/items,两两去聚。

五、 云计算

把服务器当作一种资源,随着访问需求变化,从云计算的服务商地方租,使利用率变高。

  • Pay As You Go
  • Software as a Service
  • Platform as a Service
  • Infrastructure as a Service

六、并行运算

把问题进行切分,分配到不同的处理器上。

七、

  • 解决数据挖掘:想清楚数据之间到底有没有规律
  • 看问题要全面,要从多个角度、多个维度思考,不能以偏概全。
  • 注意:存在内在分组
  • 不能忘记时间维度。
  • 幸存者偏差问题:

样本可能存在偏差。

相关推荐
中科天工9 小时前
当智能包装行业迎来新机遇,如何驾驭发展趋势?
大数据·人工智能·智能
TracyCoder1239 小时前
LeetCode Hot100(1/100)——1. 两数之和 (Two Sum)
算法·leetcode
进击的小头9 小时前
常用数字滤波器的特性与适用场景
c语言·算法
wan9zhixin9 小时前
2026年1月变电设备六氟化硫泄漏检测仪品牌推荐
大数据·网络·人工智能
FakeOccupational9 小时前
【树莓派 004】 RP2040 PIO JMP指令 : jmp()条件跳转+jmp 指令的常用条件+示例解释
笔记
APIshop9 小时前
Java获取item_get-获得某书商品详情接口
java·开发语言·python
SNAKEpc1213810 小时前
深入理解PyQtGraph核心组件交互
python·qt·pyqt
狐5710 小时前
2026-01-19-LeetCode刷题笔记-1292-元素和小于等于阈值的正方形的最大边长
笔记·算法·leetcode
张祥64228890410 小时前
误差理论与测量平差基础笔记六
笔记·算法·概率论
zpedu10 小时前
软考想一次过,有一个学习衡量标准吗?
人工智能·笔记