《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。
图书介绍:《数据资产管理核心技术与应用》
今天主要是给大家分享一下第一章的内容:
第一章的标题为认识数据资产,总共分为了8个小节。
1.1 数据资产的基本介绍
数据资产通常是指那些可以通过分析来揭示价值、支持企业决策制定、优化企业流程、预测行业的未来趋势或产生更大的经济价值的数据集。这些数据可能是由企业自身产生也可能是从外部获取(如社交媒体、第三方数据提供商、网络爬虫等)的,而且这些数据的格式多样,可能是结构化数据、半结构化数据或者非结构化数据。
数据资产的关键特性:可用性、可访问性、完整性、可靠性和安全性
可用性:指的数据资产需要能被使用,如果无法被使用,那么数据资产就无法体现其核心价值,而数据资产的可用性则需要依赖数据质量、数据监控等很多关键要素的支撑。
可访问性:指的是数据资产需要能够被数据的使用者访问,如果无法被访问,那么数据资产也会显得没有任何的价值,因为只有能被访问,才能去挖掘出数据的更多价值。
安全性:指的是数据资产需要保障其数据的安全性,防止数据被泄露、丢失或者被黑客攻击篡改等。
可靠性:指的是数据资产一定是可靠的,不然无法用于企业的决策和判断,如果数据不可靠,那么通过数据做出来的决策肯定也不会可靠,从而会给企业带来巨大的损失。
完整性:指的数据资产中的数据一定是完整的,如果数据不完整,那么获取到的信息也不会完整,不完整的数据是无法用于数据分析、数据决策等。
数据资产的几种常见类型:
非结构化数据: 非结构化数据没有预定义的格式或组织,因此更难以处理和分析。这类数据包括文本文档、PDF文件、电子邮件、视频、图像和音频文件。虽然处理起来更复杂,但非结构化数据通常提供更丰富的信息和见解,对于机器学习和自然语言处理等领域尤其有价值。
结构化数据: 这类数据通常存在于预定义的数据模型之中,因此它们格式清晰、易于搜索和组织。结构化数据通常存储在关系数据库中,如SQL数据库,这类数据库支持复杂的查询、报告和分析。例如,客户信息、销售记录、库存数据和金融交易都可以以结构化的形式存储。通常他们表格形式存在,每一列代表一个数据字段,每一行代表一个数据记录。
半结构化数据: 半结构化数据介于结构化和非结构化数据之间,它们可能不符合严格的数据库模型,但包含标签或其他标记来分隔语义元素,并使元素的层次结构可识别。XML和JSON是半结构化数据的典型例子,它们被广泛用于网络数据交互。
实时数据: 实时数据是指需要立即处理的数据,以便快速做出响应或决策。这类数据在金融交易、网络分析、物联网(IoT)设备监控和在线广告投放中非常常见。实时数据处理通常要求具有较高的技术能力,以便快速捕捉、分析和响应数据流。
时间序列数据: 时间序列数据是按照时间顺序收集的数据信息,通常会用于分析数据的趋势、周期性和季节性变化等,比如股票价格、气象记录和监控数据等都是时间序列数据的例子。
地理空间数据: 地理空间数据含有关于地理位置的信息,这类数据在规划、物流和位置分析中非常关键。比如地图数据、卫星图像和GPS追踪数据都属于这一类型。
元数据: 元数据是描述其他数据的数据,它可以包括文件大小、存储路径、创建日期、作者信息等。元数据有助于组织、管理和检索数据,通常是数据管理、数据仓库、数据湖中不可或缺的核心组成部分。
1.2 数据资产的分类
数据资产分类的方式通常包含如下几种
根据数据敏感性分类:根据数据的敏感程度,通常可以将数据分为不同的级别,如公开数据、内部使用数据、敏感数据、隐私数据、绝密数据等。这种分类方式一般有助于企业或者组织对不同级别的数据采取不同的保护措施,以确保数据的安全性和隐私性。
根据数据来源分类:根据数据的来源,通常可以将数据分为很多不同类别,如会员数据、商品数据、业务数据、交易数据、第三方数据等。这种分类方式一般有助于企业或者组织更好地了解数据的来源和用途,从而更好地利用数据。
根据数据用途分类:根据数据的用途,通常可以将数据分为各种不同的类别,如分析数据、决策数据、销售数据、风控数据等。这种分类方式一般有助于企业或者组织更好地了解数据的应用场景和使用的目的,从而更好地发挥数据的使用价值。
根据数据格式分类:根据数据的格式和类型,通常可以将数据分为更多不同的类别,如半结构化数据、结构化数据、非结构化数据、文本数据、图像数据、音频数据等。这种分类有助于企业或者组织更好地了解数据的结构和特点,从而更好地处理和保存数据。
1.3 数据资产的价值评估
1、通过成本来评估数据资产的价值
利用成本来评估数据资产的价值是一种在数据领域经常使用的方法,主要思想是通过考量 数据的获取、处理、存储以及后期维护和升级的成本来确定数据能够产生多大的价值。
2、通过收益来评估数据资产的价值
利用收益来评估数据资产的价值是指基于现有的数据资产在过去的应用和使用情况和未来应用场景来评估数据资产能产生多大的价值。
1.4 数据资产的质量
确保数据高质量是数据资产管理的核心之一,企业或者组织管理其数据是因为需要使用数据或者挖掘数据中更大的价值,为了确保数据满足使用的需要,那么就一定要做好数据质量的管理。如果数据质量过差,对于任何的企业或者组织来说都是一种高成本的消耗。低质量的数据通常会产生如下不必要的成本开支,比如:
数据经常需要不断的返工和修正
数据的质量低,导致企业或者组织的决策错误,从而造成巨大的经济损失
数据的质量低,导致数据的使用变少,从而无法让数据发挥出应用的价值
高质量数据带来的相应好处包括:
可以更好的去改善客户的使用体验
可以更好去提升生产力
降低低质量的数据造成不可控的风险
高质量的数据,可以带来更大的机会和机遇
从对客户、产品、流程和机会的洞察中获得的更大的竞争优势
1.5 数据资产的存储
从传统的IT时代到现今的互联网时代和大数据时代,随着技术的不断快速发展,数据资产的存储方式也在不断的发生着翻天覆地的变化,数据资产的存储发展历程主要分为如下几个阶段
文档存储时代:
普通数据库存储的时代:
数据仓库存储的时代:
数据湖存储的时代:
湖仓一体的时代:
1.6 数据资产的管理
数据资产管理是一个涉及数据识别、分类、存储、保护和使用的复杂过程。数据资产的管理包括需要知晓数据的来源、存储位置、质量、适用的合规要求以及如何最大限度地利用这些数据等。在做数据资产管理时,还需要注意数据的生命周期。数据的生命周期通常包括数据的创建、存储、使用、共享、归档和销毁等。在每个阶段,都需要相应的管理措施来保护数据的价值并确保其质量和合规性。
通常来说,数据资产的管理包括:
元数据管理:在前面已经提到,元数据是描述其他数据的数据,是数据资产管理的核心,如果没有元数据管理,用户在使用数据时,就不知道数据是什么、包含了什么信息,自己需要的数据在哪里等,只有做好了元数据的管理,才能让数据更容易被检索,才能让数据的使用者快速的找到自己需要的数据。
数据获取管理:通常指的是从数据源端获取数据的管理,比如当存在很多个数据源时,需要对每个采集数据的数据源进行管理。
数据处理管理:当从数据的源端获取到数据后,通常还需要对数据做一些加工和处理,比如数据格式的处理、数据的压缩处理、数据的异常值处理等。
主数据管理:是对核心业务的实体相关的关键数据进行的管理,在不同的企业或者不同的环境中,主数据可能是不同的。主数据的管理可以进一步提高数据的价值,提升数据对业务的响应速度。
数据血缘管理:是对数据之间的关联关系进行的管理,通过数据血缘管理,数据的使用者就可以知道数据是从哪里来的、做了什么处理和加工等。
数据质量管理:通过对数据质量规则的定义来衡量数据的质量的管理,数据质量的好坏直接会关系数据价值。
数据监控管理:数据监控管理是对数据链路、数据任务、数据服务、数据处理资源等环节进行监控与告警,当发现问题时,能够及时将问题告警和通知出来,以便数据的运维人员后者管理人员及时进行处理。
数据服务管理:在数据资产中,数据服务是对外提供使用和访问的一种最重要的形式,数据只有提供对外的访问,才能体现其自身的价值。数据服务的管理就是对这些对外提供数据使用的服务进行管理。
数据权限与安全管理:在数据资产中,数据权限与安全的管理是让数据的整个生命周期中不会出现数据在未经授权的情况下被滥用,从而保护数据的安全和隐私不受侵犯的管理。
通常来说,数据资产的管理方式包括如下几种
加强数据治理:通常来说,数据治理是做好数据资产管理的核心,通过不断的建立和完善数据治理的流程和规范,明确数据管理的职责和分工,对数据做好分类和标记,让数据更方便的被查找。
建立完善的数据质量体系:数据质量直接决定了数据能否发挥其应有的作用,健全完善的数据质量体系可以持续不断的提高数据的质量,让数据能够更准确的支撑企业或者组织的决策。
建立完善的数据权限和安全管理体系:数据安全是整个数据资产管理的基础,建立一套包括数据备份和恢复、数据加密和解密、数据权限控制等在内的体系,可以更好去保障数据的安全可靠。
通过数据分析挖掘数据的更多价值:数据分析是数据资产的核心应用,在数据资产管理中,需要更多的去对数据做分析,以挖掘出数据的更多潜在价值。
1.7 数据资产管理的信息化建设
数据资产管理的信息化建设通常是指通过类似大数据等信息化的技术对企业或者组织的数据资产进行管理和维护,数据资产的信息化管理可以带来如下好处
及早发现数据问题:通过数据资产管理的信息化可以强化数据的质量以及监控和告警,当数据出现问题时,能够及早的被发现。
提高数据管理的效率:通过大数据等IT技术手段,实现自动化、智能化管理数据,减少人工操作以及人为失误,降低人力成本和数据出错的风险。
让数据可以更快的产生价值:通过大数据等IT技术手段,让数据分析、数据挖掘更加迅速,能更快的为企业或者组织提供更快更准确的决策。
让数据可追溯和跟踪:通过建设数据资产管理平台,管理数据的处理过程和血缘关系等,让数据的使用者能对数据进行溯源。
数据资产管理信息化建设核心要素如下:
数据采集:通过信息化的方式实现自动、实时、准确的去各个业务系统或者软硬件设备上采集数据.
数据处理:通过Spark、Flink等大数据技术,实时的对采集到的数据做清洗和转换处理,挖掘出更多的数据价值。
数据存储:通过数据仓库或者数据湖等分布式存储的技术手段来存储不同数据种类和格式的海量数据。
数据服务:搭建统一的数据服务平台,让数据能够被业务需求轻松的访问到。
数据安全:建立信息化的安全机制,自动识别数据中可能存在的安全访问风险,对数据进行自动备份以便在数据出现丢失时能够自动的恢复。
1.8 数据资产与人工智能
随着新一轮科技技术的变革,人工智能已经成为了当前技术的热点话题之一,而数据更是赋能人工智能发展的关键。
人工智能在算法学习和模型训练时,需要大量的数据做支撑,而人工智能算法预测的结果又需要通过数据反馈来验证其准确的程度,所以可以看到数据是支撑人工智能发展的关键,提高人工智能的准确性需要大量的数据来不断的训练其模型。
数据资产和人工智能的结合将会使得
人工智能更加智能化,能解放更多的人力成本。
能更好和更快的推动很多传统企业或者组织做数字化的转型。
加速科技发展的进程,发现更多未知的规律和现象。
总之数据资产与人工智能的结合,可以为很多的企业或者组织带来更大的商机,可以让企业或者组织更好的去理解数据和探索挖掘数据中更多潜在的价值。