华为数据之道第三部分导读

数字化转型是在解决工业革命时代没有解决的效率和成本问题，所以如果转型依赖的数据，还是需要组织大量专业人员去录入、去校验，那么就并没有从源头上解决数字化转型要解决的效率和成本问题。数字化转型要从根本上加强数据的可获得性，围绕我们构建的数据主题和对象丰富数据感知渠道。要追求更加实时、全面、有效、安全的数据获取

"全量、无接触"的数据感知能力框架

数据感知能力的需求起源：数字孪生

在复杂的企业数字化变革过程中，非数字原生企业往往需要协调众多业务流，极具挑战性，但同时也是成功完成转型的关键。所以基于DT衍生出来的DTO（Digital Twin of an Organization，企业数字孪生）是一种动态的软件模型。模型需要输入组织的运营及其他类型的相关数据，以实现组织运营模型在虚拟世界中的映射，并能更新实时状态、应对外界变化、部署相应资源和产生预期客户价值。

很多非数字原生企业的数据管理能力不足、信息化程度较低，DTO还遥不可及，但这又是数字化转型的趋势，所以可以先着手构建数据采集能力，完成数据感知、接入和存储，先让企业具备DTO应用的基础。

数据感知能力架构

数据感知可分为"硬感知"和"软感知"，面向不同场景。"硬感知"主要利用设备或装置进行数据的收集，收集对象为物理世界中的物理实体，或者是以物理实体为载体的信息、事件、流程等。而"软感知"使用软件或者各种技术进行数据收集，收集的对象存在于数字世界，通常不依赖物理设备进行收集。

基于物理世界的"硬感知"能力

"硬感知"能力的分类

条形码与二维码
磁卡
RFID
OCR和ICR
图像数据采集
音频数据采集
视频数据采集
传感器数据采集
工业设备数据采集

"硬感知"能力在华为的实践

通过光线传感器和温度传感器，自动调节窗帘、灯光，温度随环境改变，并与店门、窗帘、灯光、空调、屏幕、防盗系统联动。

基于数字世界的"软感知"能力

"软感知"能力的分类

埋点
日志数据采集
网络爬虫

"软感知"能力在华为的实践

数据管理平台的数字化运营，需要识别用户行为，进而提升运营效率与用户数据消费的体验。通过对平台埋点，捕捉用户在界面上从数据定位到最终消费的浏览过程和停留时间等信息，并关联用户的部门、职位、所在地等信息，自动生成用户画像和数据画像，确定细分用户范围，界定相同认知背景和业务场景的用户，提供可识别的分类资产用于搜索，界定数据资产分类，面向不同用户界定不同的资产范围，减少匹配差异和搜索引擎复杂度，训练搜索引擎和推荐算法，提供最优数据推荐结果和排序位置。

通过感知能力推进企业业务数字化

感知数据在华为信息架构中的位置

数据治理下的感知能力对接了数据供应链（Data Supply Chain），数据从感知采集到最终的分析消费，都纳入公司级的信息架构，作为数据资产来进行管理。

非数字原生企业数据感知能力的建设

如果非数字原生企业需要构建感知能力，可以考虑从以下几个方向来选择，关键是能力的构建始终要贴合业务，尽快促成业务价值的呈现。

开发一个独特的物理对象感知能力可以获得收益的方向，包括改善运营、降低运营风险、降低成本、更好地为客户服务的机会，或者通过拥有质量更高、更全面的数据来进行更好的业务决策。

在更复杂、更昂贵的环境（例如工业机器和企业资产）中，更有可能抵消感知能力构建的实现成本。

组织是否拥有相关感知能力的前身，比如可以利用现有的、详细的元数据和模型（例如BOM、CAD和仿真模型）。

需要一个模型来支持极端的操作环境，比如远程或环境恶劣的地方。

探索技术或商业模式的创新，比如增强现实的应用，或者实现资产货币化的新方法，或者提供前所未有的、差异化的服务水平等领域。

第8章打造"清洁数据"的质量综合管理能力

越来越多的企业应用和服务都基于数据而建，数据质量是数据价值得以发挥的前提。

基于PDCA的数据质量管理框架

从数据质量领导力、数据质量持续改进、数据质量能力保障三方面展开，有机结合形成联动。

什么是数据质量

华为数据质量指"数据满足应用的可信程度"，从以下六个维度对数据质量进行描述。

1）完整性：指数据在创建、传递过程中无缺失和遗漏，包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项，例如员工工号不可为空。

2）及时性：指及时记录和传递相关数据，满足业务对信息获取的时间要求。数据交付要及时，抽取要及时，展现要及时。数据交付时间过长可能导致分析结论失去参考意义。

3）准确性：指真实、准确地记录原始数据，无虚假数据及信息。数据要准确反映其所建模的"真实世界"实体。例如员工的身份信息必须与身份证件上的信息保持一致。

4）一致性：指遵循统一的数据标准记录和传递数据和信息，主要体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。

5）唯一性：指同一数据只能有唯一的标识符。体现在一个数据集中，一个实体只出现一次，并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号。

6）有效性：指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。

数据质量管理范围

数据质量更关注业务对象、业务规则、业务过程、业务结果等数据是否得到了及时记录。

数据质量的总体框架

数据质量管理以数据清洁为目标，以业务需求为驱动，通过PDCA的循环，提升数据质量，达到数据质量结果满意。领导力模块通过制定政策、规范来构建数据质量管理机制，对数据质量的工作起牵引作用。能力保障模块构建完整的数据组织、流程和工具，起到支撑作用。

（1）自上而下打造数据质量领导力

（2）全面推进数据质量持续改进机制

（3）不断加强数据质量能力保障

全面监控企业业务异常数据

数据质量规则

1）单列数据质量规则。关注数据属性值的有无以及是否符合自身规范的逻辑判断。

2）跨列数据质量规则。关注数据属性间关联关系的逻辑判断。

3）跨行数据质量规则。关注数据记录之间关联关系的逻辑判断。

4）跨表数据质量规则。关注数据集关联关系的逻辑判断。

异常数据监控

数据质量控制的目的是致力于满足数据质量要求，消除或减少异常数据。数据质量控制可以在数据的生命周期内的不同时点被应用，来测试数据的质量和其是否适合于其所在的系统。

识别监控对象范围，确定监控内容

（1）重要性原则

（2）成本效益原则

数据源剖析

1）数据源内容：如从上述数据源剖析结果的摘要视图中，我们可以了解到此表包含员工工号、姓名等内容，即列信息等。

2）数据源结构：包括技术结构和业务结构。技术结构指空值频率、相异值频率、值范围（最大值、最小值）、模式、长度、数据类型。业务结构如组织结构存储是平面结构还是树状结构。

3）数据源质量：根据数据标准分析剖析结果的数据质量，例如必填字段是否有空值存储，有允许值列表中的值个数与相异值频率是否一致等。

设计和配置监控规则，自动监测异常数据

通过数据质量综合水平牵引质量提升

通过数据质量度量综合评价公司整体数据质量水平，制定数据质量基线，披露数据质量问题与短板，促进问题改进，推动数据Owner承接数据质量改进目标，持续提升数据质量，实现数据清洁。

数据质量度量运作机制

（1）度量模型

（2）数据Owner职责要求

（3）专业支撑组织职责要求

（4）度量规则

设计质量度量

为确保设计质量标准稳定，从信息架构的四个角度（数据资产目录、数据标准、数据模型、数据分布）进行综合评估，其范围覆盖度量期间内已通过IA-SAG评审发布的所有数据资产。当实际业务有例外场景时，可向IA-SAG专业评审团申请仲裁，若评审通过，则可采用白名单的方式进行管理。

执行质量度量

执行质量度量主要是从数据质量六性（一致性、完整性、及时

性、唯一性、有效性、准确性）评估数据内容的清洁度，涉及三个要素：客户关注重要性、法律财务风险性、业务流程战略性。业务领域也可根据阶段性的管理重点和诉求调整评估的要素。

质量改进

质量改进的步骤本身就是一个PDCA循环。

数据质量控制和数据质量改进的关系：

质量活动通常分为两类：维持与改善。

维持是指维持现有的数据质量水平，其方法是数据质量控制；改善是指改进目前的数据质量，其方法是主动采取措施，使数据质量在原有的基础上有突破性的提高，即数据质量改进。

从结果的角度来说，数据质量控制的目的是维持某一特定的质量水平，控制系统的偶发性缺陷；而数据质量改进则是对某一特定的数据质量水平进行"突破性"的提升，使其在更高的目标水平下处于相对平衡的状态。控制是日常进行的工作，可以纳入流程体系的"操作规程"中加以贯彻执行，最好的手段就是纳入流程体系进行标准化。

质量改进则是一项阶段性的工作，达到既定目标之后，该项工作就完成了。质量改进的最终效果比原来维持下的效果好得多，这种工作必然需要精心策划。质量改进要固化在流程体系中进行标准化，通过质量控制使得标准化的流程得以实施，达到新的质量水平。

质量控制是质量改进的前提，控制就意味着维持以前的质量水平，是PDCA改进循环中保证水平不下降的"努力的楔子"，是保证下一次改进的起点，而改进则是在起点基础上的变革和突破。如果不做好质量控制，质量水平就会下降，下次又在低水平重复，因此不能只关注质量改进，改进后关键还是要实施质量控制，二者交替进行，相辅相成。

第9章打造"安全合规"的数据可控共享能力

大量的数据汇集在一个湖中，如何在内外部合规的基础上，确保业务能够迅速获得所需数据，可控共享。这是企业在数字化转型过程中面临的共同问题，数据资产作为企业的核心战略资产，作为生产要素，锁在独立硬盘中是发挥不了价值的，那么，如何让数据在安全合规的前提下最大程度地发挥价值？这是数字化转型中的关键问题，如果数据的安全问题得不到妥善解决，那么宁愿数字化转型慢一点，或者不转型，也不能在错误的方向上渐行渐远。

内外部安全形势，驱动数据安全治理发展

数据安全成为国家竞争的新战场

在工业时代，政府通过控制货物、人员、资金的流动来形成国家壁垒、实现国际影响力；到了数字时代，货物、人员、资金可以全世界自由流动，而跨区的数据流动反而受限制。数据管控力将成为衡量国家竞争能力的重要指标。

通过分析各国对网络安全、数据保护、隐私保护的立法进展，可以看出各国的立法进度都在加快。隐私保护立法都在向欧盟GDPR看齐，从原来依靠道德约束保护隐私，上升至法律约束。数字时代带来了新的发展机遇，也给数据安全带来了新的挑战。

数字时代数据安全的新变化

数字时代丰富的数据必然成为国家与国家间、企业与企业间竞争的关键；攻击者的攻击手法更加多样，数字化加速了泄露的便捷性；不管是传统数据库还是云端，基于网络边界的防护必然会被突破。如何从安全能力建设的源头进行标准化风险预防，在安全可控的前提下最大程度释放数据共享的价值，是所有企业共同面对的课题。

数字化转型下的数据安全共享

数据安全是从决策到技术、从管理制度到工具支撑，自上而下贯穿整个组织的完整链条。

非数字原生企业信息化程度差，存在割裂的信息孤岛，阻碍了企业的数字化转型。随着非数字原生企业的逐步转型，企业拥有的数据资产越来越庞大。商品的价值原理告诉我们： "买方的市场需求决定一件商品的价值。"那数据安全的核心价值就是"让数据使用更安全"。换句话说，数据安全与隐私保护的目标就是解决如何在安全前提下充分共享数据

构建以元数据为基础的安全隐私保护框架

以元数据为基础的安全隐私治理

先做全面的体检（元数据发现），建立病历（信息架构、数据分类等），然后由专业的医生给出治理策略，也就是策略制定与执行数据保护和控制。整个过程都是以元数据为基础。

数据安全隐私分层分级管控策略

从公司层面，通过对整体内外部安全隐私管理政策的解读，将内部信息密级维度分为五类，要求组织间共享时一致遵从。

1）外部公开：指可以在公司外部公开发布的信息，不属于保密信息。

2）内部公开：指可以在全公司范围内公开，但不应向公司外部扩散的信息。

3）秘密：是公司较为重要或敏感的信息，其泄露会使公司利益遭受损害，且影响范围较大。

4）机密：是公司非常重要或敏感的信息，其泄露会使公司利益遭受较大损害，且影响范围广泛。

5）绝密：是公司最重要或敏感的信息，其泄露会使公司利益遭受巨大损害，且影响范围巨大。

基于业务管理的诉求，以内部信息密级维度为基础，从资产的维度增加两类划分，进行针对性管理。

1）核心资产：对应绝密信息，特指公司真正具有商业价值的信息资产。

2）关键资产：属于机密信息，特指对我司在消费者BG、5G领域领先战略竞争对手，在市场竞争中获胜起决定性作用的信息资产。

基于对GDPR的解读和企业内部的管理需求，将涉及潜在隐私管控需求的数据分为五类进行管理。

1）个人数据：与一个身份已被识别或者身份可被识别的自然人（数据主体）相关的任何信息。

2）敏感个人数据：指在个人基本权利和自由方面极其敏感，一旦泄露可能会造成人身伤害、财务损失、名誉损害、身份盗窃或欺诈、歧视性待遇等的个人数据。通常情况下，敏感个人数据包括但不限于可以揭示种族或血统、政治观点、宗教或哲学信仰、工会成员资格的数据，用于唯一识别自然人的基因数据、生物数据（如指纹），与自然人的健康、性取向相关的数据。

3）商业联系个人数据：指自然人基于商业联系目的提供的可识别到个人的数据。

4）一般个人数据：除敏感个人数据、商业联系人以外的个人数据，作为一般个人数据。

5）特种个人数据：GDPR法律中明文确定的特殊种类个人数据，严禁物理入湖，严禁共享及分析。

数据底座安全隐私分级管控方案

1）数据底座安全隐私管理政策：说明数据底座的责任边界，数据风险标识标准、数据加工、存储、流转规范。

2）数据风险标识方案：平台提供的数据标识能力。

3）数据保护能力架构：数据底座分级存储架构能力。

4）数据组织授权管理：数据在组织内共享的规则。

5）数据个人权限管理：个人访问数据的权限管理方案。

在数据安全方面，根据公司信息保密规定，数据底座安全管理总体原则与数据管理原则是一致的，即"核心资产安全优先，非核心资产效率优先"。

数据安全规范主体包括三部分。

1）数据密级分级标准：数据定密的标准，包括外部公开、内部公开、秘密、机密、绝密五个等级。

2）存储保护的基线：描述每一个级别的数据资产的存储要求以及入湖原则。

3）流转审批层级：描述每一个级别的数据资产在申请数据共享时应该经过哪些控制审批。一般控制审批流程下，内部公开数据不需要审批，在流程中自动存档并知会数据消费方直属主管。秘密数据由消费方直属主管审批即可，机密数据需要数据生成方和消费方双方数据Owner共同审批。

在隐私保护方面，根据公司隐私保护总体纲领文件和数据底座自身的特点，发布了数据底座隐私保护规定，总体原则是"个人数据原则上不入湖，并尽可能脱敏处理"。

隐私保护规范主体包括三部分。

1）个人数据分类、分级标准：非个人数据、商业联系个人数据、一般个人数据、敏感个人数据，共4个级别。

2）个人数据保护基线：根据个人数据分级，敏感个人数据、一般个人数据、商业联系人分别需要做不同程度的数据保护，其中法律明文规定的特种个人数据严禁入湖。

3）流转审批层级：隐私审批层级基本与安全一致，但新增了隐私专员的介入，以专家评审身份，参与控制数据流转业务，判别数据消费的目的限制以及最小化授权。

分级标识数据安全隐私

1）人工识别数据风险。数据安全隐私分级标识必须基于元数据管理平台，在平台中构建对数据字段级别的风险标识。

2）基于规则与AI的自动识别。在数字时代，随着数据资产的膨胀，数据风险标识工作量非常巨大，字段的数量是数据表数量的100倍有余，依靠人工的方式无法识别全面，需要通过工具，基于规则（正则表达式）以及AI机器学习的方式，构建自动推荐、识别风险标识的能力。

在数字时代，数据的安全隐私也得到了越来越多企业的重视，这其中也包括非数字原生企业，因为这类企业手中的生产工艺和研发数据中往往包含大量的专利成果和机密配方，而识别数据资产、管理元数据、标识安全隐私，只是"安全合规"共享数据的第一步。

"静""动"结合的数据保护与授权管理

静态控制：数据保护能力架构

存储保护

存储保护能力包括面向表级管理的高防区隔离、透明加密和基于字段级的对称加密和静态脱敏。

1）高防区隔离：高防区隔离就是我们通过在数据底座独立部署单独的防火墙以及配合流向控制、堡垒机等措施，对高密资产重点防护。关键要点就是有独立的防火墙，并且内部区分脱敏开发区以及明文业务访问区，让数据开发人员在脱敏区工作。高防区数据经过审核后才能发布到明文区，给业务部门使用。

2）透明加密：透明加密就是对表空间进行加解密，进入表空间的表自动加密，有权限的应用读取表空间的表时就自动解密。主要用于防止黑客把库文件搬走。

3）对称加密：对称加密指应用对数据字段应用对称加密算法进行加密，需要配合统一的密钥管理服务使用。

4）静态脱敏：首先需要从技术角度制定出脱敏标准。脱敏不是单一的技术能力，而是多种脱敏算法的合集，包括加噪、替换、模糊等，每种数据类型应该有不同的脱敏标准。我们在ETL集成工具中增加脱敏API能力，可以对具体的字段进行脱敏，每类数据字段都依据脱敏标准执行。

访问控制

静态脱敏用于存储保护，而动态脱敏则是一项基于身份的访问控制。通常Web应用都是使用自己的菜单和角色权限进行职责分离，对于数据权限，很难做到字段级别的控制。而动态脱敏可以对某些数据表、数据字段根据身份进行脱敏，从而做到更细颗粒度的保护。

可追溯

在可追溯方面，业界有比较成熟的数据水印技术。简单来说，是直接改动数据，在数据行、数据列中增加水印，不影响数据的关联与计算，适用于核心资产或敏感个人数据。一旦发生泄露，可以溯源定责。

动态控制：数据授权与权限管理

数据授权管理

数据授权和数据权限是两个不同的概念。数据授权主要是面向组织，指数据Owner对组织授予数据访问权的过程，让数据与组织绑定，为组织提供长期的数据订阅权限。数据授权包含两个场景。

1）数据加工授权：由于数据主题联接资产建设中需要跨组织进行数据联接、加工、训练需要转移数据而发生的数据授权场景。

2）数据消费授权：由于业务用户数据的分析需要订阅数据服务而发生的数据授权场景。

数据授权管理要基于数据风险标识和数据保护能力，既能在数据流转中落实安全隐私控制策略，让数据安全隐私政策落地，又能作为数据架构治理的抓手，融入架构审核，避免重复建设。

数据权限管理

数据权限管理是基于访问管控规范，对授予的数据访问权限进行管理的过程。面向个人和面向与岗位绑定的综合管理者的管理策略不同。

面向个人，指业务制定数据访问管控规范，授予个人数据访问权限的过程，具有与个人绑定、短期有效的特点。基于消费数据类型的差异，个人数据权限分为两大场景：

1）业务分析师获取数据资产（原材料场景）。

2）业务用户获取报告访问权限（成品场景）。

基于企业IAM（身份识别与访问管理）和IDM（账号权限管理），结合数据分级管理机制，让数据权限随人员流动而改变，并统一规则、集中管控高风险数据，实现对个人权限授予、销权、调动全生命周期集中管控。

而对于综合管理者，引用人力资源管理岗的信息，当管理者被任命或者调动交接后，会执行相应的授权和销权操作。这个过程是全自动的，无须管理层的操作，在有效权限管理的基础上提升了用户在权限管理下进行数据消费的效率和体验。

为打造"安全合规"的数据可控共享能力，我们践行了数据安全隐私管理不仅仅是一套IT工具组合的思路，基于安全隐私的两个公司级治理文件，通过"数据底座共享与安全管理规定"和"数据底座的隐私保护规定"，落实管理要求，分别建设了数据标识、存储保护、授权控制、访问控制的能力。同时平台调用了传统IT安全措施，通过态势感知、堡垒机、日志服务等，结合数据安全治理方法与传统的IT安全手段，做好数据的内外合规，形成完整的数据安全与隐私保护，实现让数据使用更安全这一目标。