数据分析与数据挖掘

第一章、概述

1.1.1数据分析:采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取出有用的信息的过程。

1.1.2数据挖掘:从海量数据种通过相关的算法来发现隐藏在数据中的规律和知识的过程。

1.1.3知识发现的过程

1.1.4数据分析与数据挖掘的区别

1.1.5数据分析与数据挖掘的联系

数据-------数据分析----->信息-------数据挖掘-------->知识

1.2分析与挖掘的数据类型

1.3数据分析与数据挖掘的方法

1.3.1频繁模式:Apriori

1.3.2分类与回归:决策树、朴素贝叶斯、支持向量机、神经网络、规则分类器、基于模式的分类、逻辑回归......

1.3.3聚类分析:原型聚类、密度聚类、层次聚类、图聚类

1.3.4离群点分析:离群点是指全局或局部范围内偏离一般水平的观测对象

1.4数据分析与数据挖掘使用的技术

1.5应用场景及存在的问题

1.5.1推荐顺序

1.5.2数据类型多,高维数据,噪声,可视化,隐私数据的保护

第二章、数据

2.1.1数据属性:标称属性、二元属性、有序属性、数值属性{离散属性、连续属性}

2.2数据的基本统计描述

2.3数据的相似性和相异性

相似性:两个对象相似程度的数量表示,数据值高表明相似性越大

相异性:两个对象不相似程度的数量表示,数值越低表明相似性越大,相异性的最小值通常为0

第三章、数据预处理

3.1.1数据存在的问题:数据不一致、噪声、缺失值

3.1.2数据质量要求

3.1.3数据预处理的主要任务

数据清理:

数据集成:不同来源数据放到统一地方

第四章、数据仓库

4.1数据仓库基本概念

4.1.1数据仓库的定义及特征

4.1.2数据仓库体系结构

4.1.3数据模型

第九章、离群点检测

9.1离群点定义与类型

9.1.1概念:全局或局部范围内偏离一般水平的观测对象

应用价值:网络入侵检测、工业损毁检测、网络监视异常、医疗处理、欺诈检测

9.1.2类型

全局离群点

条件离群点

集体离群点

9.2离群点检测

海量数据集多数数据服从一定的模型分布

相关推荐
是店小二呀1 分钟前
GPUGeek云平台实战:DeepSeek-R1-70B大语言模型一站式部署
人工智能·语言模型·自然语言处理·gpugeek平台
烦恼归林17 分钟前
永磁同步电机高性能控制算法(22)——基于神经网络的转矩脉动抑制算法&为什么低速时的转速波动大?
人工智能·神经网络·电机·电力电子·电机控制·simulink仿真
猎人everest42 分钟前
支持向量机(SVM)详解
人工智能·机器学习·支持向量机
hao_wujing1 小时前
人工智能视角下的安全:可视化如何塑造恶意软件检测
人工智能·安全
kyle~1 小时前
计算机视觉---目标追踪(Object Tracking)概览
人工智能·深度学习·计算机视觉
ModelWhale1 小时前
践行“科学智能”!和鲸打造 AI for Science 专属应用
人工智能·ai4s
白杨SEO营销1 小时前
白杨SEO:不到7天,白杨SEO博客网站百度搜索显示和排名恢复正常!顺带说说上海线下GEO聚会分享和播客红利
人工智能·搜索引擎·百度
ywyy67981 小时前
推客小程序系统开发:全栈式技术解决方案与行业赋能实践
大数据·人工智能·微信小程序·小程序·系统·推客系统·推客小程序
高工智能汽车2 小时前
芯驰科技与安波福联合举办技术研讨会,深化智能汽车领域合作交流
人工智能·科技·汽车
计算机毕设源码分享8888882 小时前
杭州创维智能科技有限公司偿债能力盈利提升方案
人工智能·microsoft