数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili

一、Learning Resources

二、Data

  • 数据是最底层的一种表现形式。
  • 数据具有连续性。
  • 从存储上来讲,数据分为逻辑上的和物理层的。
  • 大数据:数据量大、产生速度快、数据种类多、

三、The Process of Data Mining

四、clustering聚类

聚类:把一堆数据分为一组一组的(没有标签)

层次性聚类:

一个一个单独的elements/items,两两去聚。

五、 云计算

把服务器当作一种资源,随着访问需求变化,从云计算的服务商地方租,使利用率变高。

  • Pay As You Go
  • Software as a Service
  • Platform as a Service
  • Infrastructure as a Service

六、并行运算

把问题进行切分,分配到不同的处理器上。

七、

  • 解决数据挖掘:想清楚数据之间到底有没有规律
  • 看问题要全面,要从多个角度、多个维度思考,不能以偏概全。
  • 注意:存在内在分组
  • 不能忘记时间维度。
  • 幸存者偏差问题:

样本可能存在偏差。

相关推荐
Python私教1 天前
DRF:Django REST Framework框架介绍
后端·python·django
怎么没有名字注册了啊1 天前
求一个矩阵中的鞍点
数据结构·算法
Greedy Alg1 天前
LeetCode 74. 搜索二维矩阵
算法
soso(找工作版1 天前
【阿里巴巴大数据之路】事实表设计
大数据
小猪咪piggy1 天前
【算法】day7 滑动窗口+二分查找
算法
仟千意1 天前
数据结构:二叉树
数据结构·算法
choice of1 天前
Sentinel:阿里云高并发流量控制
笔记·spring cloud·sentinel
一水鉴天1 天前
整体设计 逻辑系统程序 之34七层网络的中台架构设计及链路对应讨论(含 CFR 规则与理 / 事代理界定)
人工智能·算法·公共逻辑
DuHz1 天前
C程序中的数组与指针共生关系
linux·c语言·开发语言·嵌入式硬件·算法
而后笑面对1 天前
力扣2025.10.19每日一题
算法·leetcode·职场和发展