【华为数据之道学习笔记】3-9以特征提取为核心的非结构化数据管理

随着业务对大数据分析的需求日益增长,非结构化数据的管理逐 渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件,较之结构化数据,其更难标准化和理解,因此在存储、检索以及消费使用时需要智能化的IT技术与之匹配。华为的非结构化数据包括文档(邮件、
Excel、Word、PPT)、图片、音频、视频等。
相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。 因此,非结构化数据的治理核心是对其基本特征与内容 进行提取,并通过元数据落地来开展的。
非结构化数据的管理模型如图所示。

非结构化数据的元数据可以分为基本特征类(客观)和内容增强类(主观)两类。
1)基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。
2)内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。
非结构化数据的元数据管理采用统分统管的原则,即基本特征类属性由公司进行统一管理,内容增强类属性由相关承担数据分析工作的项目组自行设计,但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。
元数据管理平台通过"基本特征类元数据流"和"内容增强类元数据流"两条线来实现对非结构化数据的元数据管理和消费使用。
1)基本特征类元数据流
元数据管理平台基于收集到的各类非结构化数据源信息,自动完成基础特征类元数据的采集工作,按照管理规范和要求通过标准化、整合后存储在元数据管理平台中,并在完成元数据过滤、排序后将结果在元数据报告中进行可视化展示,以供用户消费使用。
2)内容增强类元数据流
基于元数据管理平台中基本特征类元数据的信息,各数据分析项目组解析目标非结构化对象的数据内容,并将分析结果通过元数据采集、元数据标准化&整合后统一存放在元数据管理平台中,以供用户一并消费使用,增强用户体验。
非结构化数据的处理过程如图所示。

相关推荐
千桐科技2 天前
献礼劳动节|qData 数据中台开源版 v1.3.0 正式发布:智能问数(ChatBI)来了!
开源软件·text2sql·数据中台·chatbi·问数·qdata·千桐科技
程序媛一枚~4 天前
202611读书笔记|《飞花令·柏》——身如古柏童童老,心似平江湛湛流
读书笔记·诗集·诗词·飞花令·素心落雪
科技小花9 天前
测评|2026五大数据治理平台横向对比:谁在定义数据中台的“智能引擎”?
大数据·数据库·人工智能·数据治理·数据中台
千桐科技10 天前
qData 数据中台专业版 v2.0.0 正式发布:ChatBI 上线,数据建模与安全治理能力全面升级
数据治理·数据建模·数据中台·chatbi·qdata·千桐科技·高质量数据集
Better Bench11 天前
《八十天环游地球》阅读笔记
笔记·读书笔记·八十天环游地球
AllData公司负责人11 天前
AllData数据中台通过开源项目AirFlow建设离线开发IDE,打造大数据离线调度引擎
大数据·python·资源管理·数据中台·airflow·离线调度·离线开发
雷工笔记12 天前
以复盘为镜,赴自我蜕变之约——《复盘自己:从记录到蜕变的行动指南》读书笔记
读书笔记
千桐科技14 天前
受邀出席!江苏省属企业人工智能应用场景发布会,共绘“数据-知识-决策”新蓝图
人工智能·知识图谱·数据中台·qdata·qknow·千桐科技·智能体构建平台
袋鼠云数栈18 天前
AI 时代,企业为何必须重新思考数据底座?
数据库·数据治理·数据中台·数栈·袋鼠云
千桐科技21 天前
十张架构图深度拆解:千桐科技“感知-数据-知识-决策”全链路智能平台
数据中台·统一身份认证·千桐科技·算法模型平台·标注平台·智能体构建平台·大模型构建