数据挖掘:关联规则,异常检测,挖掘的标准流程,评估指标,误差,聚类,决策树

数据挖掘:关联规则

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


### 文章目录

  • [数据挖掘:关联规则](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [@[TOC](文章目录)](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [关联规则](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [异常检测](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [数据挖掘的标准流程](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [数据挖掘的经典算法](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [训练误差和泛华误差](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [分类算法评估指标:hold-out method](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [聚类方法](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)
  • [总结](#文章目录 数据挖掘:关联规则 @TOC 关联规则 异常检测 数据挖掘的标准流程 数据挖掘的经典算法 训练误差和泛华误差 分类算法评估指标:hold-out method 聚类方法 总结)

关联规则

如果相关性很大,那就可以去掉其中一个属性


异常检测

数据挖掘的标准流程





这些不仅是理论,更是实际业务会遇到的东西




NLP



长尾问题

数据挖掘的经典算法

这些可能会考的

去年就考了聚类哦

TP:实际为正,预测为正

FP:实际为负,预测为正

FN:实际为正,预测为负

TN:实际为负,预测为负

准确率acc,是TP和TN的在所有情况中的占比

recall ,数据中所有正类中,真正被预测为正类的比例。就是被真的召回的正类比例

precise ,在所有被预测为正类中,实际正类的比例【精确是正类的】这俩别混了

ROC是pr的曲线

检测出来了,但是你也不能误报

往往希望,recall高一点,而误报也要小

误报了

误报率是负样本认为正了

召回是1000个中的5个,好low

训练误差和泛华误差

分类算法评估指标:hold-out method

train和test,随机分组的交叉验证

k-fold,k组,但是每次k-1个为训练集,而剩下一组为训练集

轮番高k次

k一般是10,叫十指交叉验证

留一验证

当数据量很小,就留一个样本作为测试集

分组,组元素个数为1

聚类方法

先了解,后面会详细讲解的

看层次





Nt就是正类

Ntk是确实是真的正类

离差

Ck中的i与中心u的距离

l簇和u簇的中心距离,越远越好

C4.5算法

开始具体的算法了


总结

提示:重要经验:

1)

2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。

3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

相关推荐
顾道长生'11 小时前
(Arxiv-2024)自回归模型优于扩散:Llama用于可扩展的图像生成
计算机视觉·数据挖掘·llama·自回归模型·多模态生成与理解
好开心啊没烦恼17 小时前
Python:线性代数,向量内积谐音记忆。
开发语言·python·线性代数·数据挖掘·数据分析
过期的秋刀鱼!18 小时前
用“做饭”理解数据分析流程(Excel三件套实战)
数据挖掘·数据分析·excel·powerbi·数据分析入门
小庞在加油18 小时前
《dlib库中的聚类》算法详解:从原理到实践
c++·算法·机器学习·数据挖掘·聚类
kngines18 小时前
【字节跳动】数据挖掘面试题0001:打车场景下POI与ODR空间关联查询
人工智能·数据挖掘·面试题
kngines1 天前
【字节跳动】数据挖掘面试题0003:有一个文件,每一行是一个数字,如何用 MapReduce 进行排序和求每个用户每个页面停留时间
人工智能·数据挖掘·mapreduce·面试题
大数据CLUB10 天前
基于pyspark的北京历史天气数据分析及可视化_离线
大数据·hadoop·数据挖掘·数据分析·spark
不秃的卤蛋11 天前
回归任务与分类任务的区别
人工智能·分类·数据挖掘·回归
电商API_1800790524711 天前
实现自动胡批量抓取唯品会商品详情数据的途径分享(官方API、网页爬虫)
java·前端·爬虫·数据挖掘·网络爬虫
大千AI助手11 天前
决策树:化繁为简的智能决策利器
人工智能·算法·决策树·机器学习·数据挖掘·tree·decisiontree