数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili

一、Learning Resources

二、Data

  • 数据是最底层的一种表现形式。
  • 数据具有连续性。
  • 从存储上来讲,数据分为逻辑上的和物理层的。
  • 大数据:数据量大、产生速度快、数据种类多、

三、The Process of Data Mining

四、clustering聚类

聚类:把一堆数据分为一组一组的(没有标签)

层次性聚类:

一个一个单独的elements/items,两两去聚。

五、 云计算

把服务器当作一种资源,随着访问需求变化,从云计算的服务商地方租,使利用率变高。

  • Pay As You Go
  • Software as a Service
  • Platform as a Service
  • Infrastructure as a Service

六、并行运算

把问题进行切分,分配到不同的处理器上。

七、

  • 解决数据挖掘:想清楚数据之间到底有没有规律
  • 看问题要全面,要从多个角度、多个维度思考,不能以偏概全。
  • 注意:存在内在分组
  • 不能忘记时间维度。
  • 幸存者偏差问题:

样本可能存在偏差。

相关推荐
地平线开发者9 小时前
SparseDrive 模型导出与性能优化实战
算法·自动驾驶
董董灿是个攻城狮10 小时前
大模型连载2:初步认识 tokenizer 的过程
算法
地平线开发者10 小时前
地平线 VP 接口工程实践(一):hbVPRoiResize 接口功能、使用约束与典型问题总结
算法·自动驾驶
罗西的思考10 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
孟健12 小时前
Karpathy 用 200 行纯 Python 从零实现 GPT:代码逐行解析
python
HXhlx14 小时前
CART决策树基本原理
算法·机器学习
码路飞14 小时前
写了个 AI 聊天页面,被 5 种流式格式折腾了一整天 😭
javascript·python
Wect14 小时前
LeetCode 210. 课程表 II 题解:Kahn算法+DFS 双解法精讲
前端·算法·typescript
颜酱15 小时前
单调队列:滑动窗口极值问题的最优解(通用模板版)
javascript·后端·算法
曲幽16 小时前
FastAPI压力测试实战:Locust模拟真实用户并发及优化建议
python·fastapi·web·locust·asyncio·test·uvicorn·workers