数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili

一、Learning Resources

二、Data

  • 数据是最底层的一种表现形式。
  • 数据具有连续性。
  • 从存储上来讲,数据分为逻辑上的和物理层的。
  • 大数据:数据量大、产生速度快、数据种类多、

三、The Process of Data Mining

四、clustering聚类

聚类:把一堆数据分为一组一组的(没有标签)

层次性聚类:

一个一个单独的elements/items,两两去聚。

五、 云计算

把服务器当作一种资源,随着访问需求变化,从云计算的服务商地方租,使利用率变高。

  • Pay As You Go
  • Software as a Service
  • Platform as a Service
  • Infrastructure as a Service

六、并行运算

把问题进行切分,分配到不同的处理器上。

七、

  • 解决数据挖掘:想清楚数据之间到底有没有规律
  • 看问题要全面,要从多个角度、多个维度思考,不能以偏概全。
  • 注意:存在内在分组
  • 不能忘记时间维度。
  • 幸存者偏差问题:

样本可能存在偏差。

相关推荐
weixin_4486170511 分钟前
疏老师-python训练营-Day30模块和库的导入
开发语言·python
zzywxc7871 小时前
AI 驱动的软件测试革新:框架、检测与优化实践
人工智能·深度学习·机器学习·数据挖掘·数据分析
程序员三藏1 小时前
Web UI自动化测试之PO篇
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
徐小夕1 小时前
再也不怕看不懂 GitHub 代码!这款AI开源项目,一键生成交互架构图
前端·算法·github
数据要素X2 小时前
【数据架构10】数字政府架构篇
大数据·运维·数据库·人工智能·架构
旧时光巷2 小时前
【Flask 基础 ①】 | 路由、参数与模板渲染
后端·python·零基础·flask·web·模板渲染·路由系统
java1234_小锋2 小时前
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 微博评论IP地图可视化分析实现
python·自然语言处理·flask
Blossom.1182 小时前
基于深度学习的医学图像分析:使用CycleGAN实现图像到图像的转换
人工智能·深度学习·目标检测·机器学习·分类·数据挖掘·语音识别
golitter.2 小时前
python的异步、并发开发
开发语言·python
SirLancelot12 小时前
数据结构-Set集合(一)Set集合介绍、优缺点
java·开发语言·数据结构·后端·算法·哈希算法·set