数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili

一、Learning Resources

二、Data

  • 数据是最底层的一种表现形式。
  • 数据具有连续性。
  • 从存储上来讲,数据分为逻辑上的和物理层的。
  • 大数据:数据量大、产生速度快、数据种类多、

三、The Process of Data Mining

四、clustering聚类

聚类:把一堆数据分为一组一组的(没有标签)

层次性聚类:

一个一个单独的elements/items,两两去聚。

五、 云计算

把服务器当作一种资源,随着访问需求变化,从云计算的服务商地方租,使利用率变高。

  • Pay As You Go
  • Software as a Service
  • Platform as a Service
  • Infrastructure as a Service

六、并行运算

把问题进行切分,分配到不同的处理器上。

七、

  • 解决数据挖掘:想清楚数据之间到底有没有规律
  • 看问题要全面,要从多个角度、多个维度思考,不能以偏概全。
  • 注意:存在内在分组
  • 不能忘记时间维度。
  • 幸存者偏差问题:

样本可能存在偏差。

相关推荐
南猿北者33 分钟前
Cmake学习笔记
笔记·学习·策略模式
猿究院--冯磊33 分钟前
JVM垃圾收集器
java·jvm·算法
witkey_ak989639 分钟前
python 可迭代对象相关知识点
开发语言·python
站大爷IP1 小时前
Python生成器与迭代器:从内存优化到协程调度的深度实践
python
野犬寒鸦1 小时前
力扣hot100:最大子数组和的两种高效方法:前缀和与Kadane算法(53)
java·后端·算法
二闹1 小时前
Python打印值的两种写法,到底有啥不同?
python
码小文1 小时前
Altium Designer 22使用笔记(8)---PCB电气约束设置
笔记·嵌入式硬件·硬件工程·ad22
站大爷IP1 小时前
Python构建MCP服务器:从工具封装到AI集成的全流程实践
python
我家大宝最可爱2 小时前
动态规划:入门思考篇
算法·动态规划·代理模式
肉夹馍不加青椒2 小时前
第三十三天(信号量)
java·c语言·算法