数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili

一、Learning Resources

二、Data

  • 数据是最底层的一种表现形式。
  • 数据具有连续性。
  • 从存储上来讲,数据分为逻辑上的和物理层的。
  • 大数据:数据量大、产生速度快、数据种类多、

三、The Process of Data Mining

四、clustering聚类

聚类:把一堆数据分为一组一组的(没有标签)

层次性聚类:

一个一个单独的elements/items,两两去聚。

五、 云计算

把服务器当作一种资源,随着访问需求变化,从云计算的服务商地方租,使利用率变高。

  • Pay As You Go
  • Software as a Service
  • Platform as a Service
  • Infrastructure as a Service

六、并行运算

把问题进行切分,分配到不同的处理器上。

七、

  • 解决数据挖掘:想清楚数据之间到底有没有规律
  • 看问题要全面,要从多个角度、多个维度思考,不能以偏概全。
  • 注意:存在内在分组
  • 不能忘记时间维度。
  • 幸存者偏差问题:

样本可能存在偏差。

相关推荐
Java后端的Ai之路5 小时前
【Python 教程15】-Python和Web
python
Coder个人博客6 小时前
Linux6.19-ARM64 mm mmu子模块深入分析
大数据·linux·车载系统·系统架构·系统安全·鸿蒙系统
冬奇Lab7 小时前
一天一个开源项目(第15篇):MapToPoster - 用代码将城市地图转换为精美的海报设计
python·开源
羊群智妍8 小时前
2026 AI搜索流量密码:免费GEO监测工具,优化效果看得见
笔记·百度·微信·facebook·新浪微博
那个村的李富贵9 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
二十雨辰9 小时前
[python]-AI大模型
开发语言·人工智能·python
power 雀儿9 小时前
Scaled Dot-Product Attention 分数计算 C++
算法
Yvonne爱编码9 小时前
JAVA数据结构 DAY6-栈和队列
java·开发语言·数据结构·python
琹箐9 小时前
最大堆和最小堆 实现思路
java·开发语言·算法
酷酷的崽7989 小时前
CANN 开源生态实战:端到端构建高效文本分类服务
分类·数据挖掘·开源