第六章:数据工程(6.5数据分析及应用--6.6数据脱敏和分类分级)

6.5 数据分析及应用

6.5.1 数据集成

1. 数据集成方法

数据集成方法分为:模式集成、复制集成、混合集成

方法 描述
模式集成 也叫虚拟视图方法,是人们最早采用的数据集成方法,也是其他数据集成方法的基础。其基本思想是:在构建集成系统时,将各数据源共享的视图集成为全局模式,供用户透明地访问各数据源的数据
复制集成 将数据源中的数据复制到相关的其他数据源上,并对数据源的整体一致性进行维护,从而提高数据的共享和利用效率。数据复制可以是整个数据源的复制,也可以是仅对变化数据的传播与复制
混合集成 该方法为了提高中间件系统的性能,保留虚拟数据模式视图为用户所用,同时提供数据复制的方法
2. 数据访问接口

数据访问接口标准有:ODBC、JDBC、OLE DB 、ADO

接口标准 描述
ODBC ODBC是用于数据库访问的应用程序编程接口(API)。 0DBC由应用程序接口驱动程序管理器、驱动程序和数据源4个组件组成
JDBC Java程序提供标准的数据库访类和接口
OLE DB OLE DB是一个基于组件对象模型的数据存储对象,能提供对所有类型数据的操作,甚至能在离线的情况下存取数据
ADO ADO是应用层的接口,ADO使用简单,易于学习,己成为常用的实现数据访问的主要手段之一
3. Web Services

Web services技术是一个面向访问的分布式计算模型,是实现Web数据和信息集成的有效机制。它的本质是用一种标准化方式实现不同服务系统之间的互调或集成

三要素是: WSDL、SOAP、UDDI

要素 描述
WSDL 是一种基于XML格式的关于Web服务的描述语言
SOAP 是消息传递的协议,它规定了Web services之间是怎样传递信息的
UDDI UDDI是一种创建注册服务的规范,起着目录服务器的作用,以便服务提供者注册发布webservices,供使用者查找
4. 数据网格技术

数据网格是一种用于大型数据集的分布式管理与分析的体系结构

数据网格的透明性 体现为:分布透明性、异构透明性、数据位置透明性、数据访问方式透明性

标题
分布透明性 用户感觉不到数据是分布在不同的地方的
异构透明性 用户感觉不到数据的异构性,感觉不到数据存储方式的不同、数据格式的不同、数据管理系统的不同等
数据位置透明性 用户不用知道数据源的具体位置,也没有必要了解数据源的具体位置
数据访问方式透明性 不同系统的数据访问方式不同,但访问结果相同

6.5.2 数据挖掘

数据挖掘与传统数据分析 存在较大的不同 ,主要表现在以下4个方面

  1. 两者分析对象的数据量有差异
  2. 两者运用的分析方法有差异
  3. 两者分析侧重有差异
  4. 两者成熟度不同

数据挖掘常见的主要任务 包括数据总结、关联分析、分类和预测、聚类分析和孤立点分析

主要任务
数据总结 目的是对数据进行浓缩,给出它的总体综合描述
关联分析 置信度度量了关联规则的强度
分类和预测 根据数据的属性将数据分派到不同的组中,并预测新数据将属于哪个组
聚类分析 每一个集合中的数据性质相近不同集合之间的数据性质相差较大
孤立点分析 就是从数据库中检测出偏差

数据挖掘流程 一般包括确定分析对象、数据准备、数据挖掘、结果评估与结果应用5个阶段,这些阶段在具体实施中可能需要重复多次

6.5.3 数据服务

数据服务主要包括数据目录服务、数据查询与浏览及下载服务、数据分发服务

6.5.4 数据可视化

由于所要展现数据的内容和角度不同,可视化的表现方式也多种多样

主要可分为七类:一维数据可视化、二维数据可视化、三维数据可视化、多

维数据可视化、时态数据可视化、层次数据可视化和网络数据可视化

6.6 数据脱敏和分类分级

6.6.1 数据脱敏

1. 敏感数据

敏感数据可以分为个人敏感数据、商业敏感数据、国家秘密数据

为了更加有效地管理敏感数据,通常会对敏感数据的敏感程度进行划分,例可以把数据密级划分为5个等级 : 分别是L1(公开)、L2(保密)、L3(机密)、L4(绝密)和L5(私密)

2. 数据脱敏方式

数据脱敏方式包括可恢复与不可恢复两类

·可恢复类 指脱敏后的数据可通过一定的方式,恢复成原来的敏感数据

此类脱敏规则主要指各类加解密算法规则。

·不可恢复 类指脱敏后的数据被脱敏的部分使用任何方式都不能恢复

般可分为替换算法和生成算法两类。

3. 数据脱敏原则

数据脱敏原则主要包括算法不可逆原则、保持数据特征原则、 保留引用完整 性原则、规避融合风险原则、脱敏过程自动化原则和脱敏结果可重复原则等。

6.6.2 数据分类

数据分类有分类对象分类依据两个要素。

6.6.3 数据分级

数据分级常用的分级维度有按特性分级、基于价值(公开、内部、重要

核心等)、
基于敏感程度(公开、秘密、机密、绝密等)、
基于司法影响范围(境内、跨区、跨境等)等。

从国家角度出发: 分为: 一般数据、重要数据、核心数据

PS: 更多关于 系统集成项目管理工程师笔记 点击专栏订阅(持续更新~~~)

相关推荐
qq_310658514 分钟前
webrtc源码走读(三)核心引擎层——音频引擎
服务器·c++·音视频·webrtc
生信碱移10 分钟前
神经网络单细胞预后分析:这个方法直接把 TCGA 预后模型那一套迁移到单细胞与空转数据上了!竟然还能做模拟敲除与预后靶点筛选?!
人工智能·深度学习·神经网络·算法·机器学习·数据挖掘·数据分析
LRX_19892713 分钟前
华为设备配置练习(八)策略路由配置
服务器·网络·华为
大连好光景26 分钟前
Linux系统中那些重要的文件路径
linux·运维·服务器
FIT2CLOUD飞致云30 分钟前
汇报丨1Panel开源面板2025年终总结
linux·运维·服务器·开源·github·1panel
小李独爱秋33 分钟前
计算机网络经典问题透视:拒绝服务(DoS)与分布式拒绝服务(DDoS)攻击全景解析
运维·服务器·分布式·计算机网络·ddos
xiaoliuliu1234539 分钟前
libicu-62.1-6.ky10.x86_64.rpm 安装步骤详解(麒麟V10系统)
linux·服务器·centos
怪力左手41 分钟前
LSP、DAP语言服务器
运维·服务器·里氏替换原则
FreeBuf_41 分钟前
欧洲航天局确认外部服务器遭入侵
服务器·安全·php
X.Ming 同学41 分钟前
深度解析 Qt 自定义图表视图:频谱图 的设计与高级功能拓展
服务器·网络·数据库