数据治理

北邮-吴怀玉10 天前
大数据·数据治理
1.4.2 大数据方法论与实践指南-质量治理(准确性&及时性)1.4.2 质量(准确性&及时性)1.4.2.1 描述数据质量是指数据满足特定场景下用户或业务需求的程度,它并非绝对概念,而是由数据的 “适用性”“可靠性”“完整性” 等多维度特征共同决定。简单来说,能准确、高效支持业务决策或用户操作的数据,就是高质量数据;反之,无法满足需求甚至误导决策的数据,则是低质量数据。
北邮-吴怀玉10 天前
大数据·flink·spark·数据治理
6.1.1.3 大数据方法论与实践指南-SparkStreaming 任务优化实践6.1.1.3 SparkStreaming 任务优化实践Spark Streaming 是 Spark 生态中用于实时流处理的组件,其性能优化需要从 资源分配、并行度、数据倾斜、反压控制、序列化、GC 调优 等多个维度进行综合优化。本文结合生产环境实践,总结 Spark Streaming 的优化策略和案例。
北邮-吴怀玉10 天前
大数据·数据治理
8.1.1 大数据方法论与实践指南-埋点需求流程8.1.1 埋点需求流程埋点需求及开发流程是数据驱动产品优化的核心链路,涉及需求提出、技术实现、质量保障到数据应用的完整周期。以下是标准化流程及角色职责划分:
北邮-吴怀玉10 天前
大数据·运维·网络·数据治理
1.4.5 大数据方法论与实践指南-安全&合规1.4.5 安全&合规1.4.5.1 描述数据合规是指数据处理主体(企业、机构等)在数据的全生命周期(收集、存储、使用、共享、传输、公开、删除等)中,遵循相关法律法规、行业规范、内部制度及合同约定,确保数据处理行为具备合法性、正当性、必要性的一系列活动。
北邮-吴怀玉10 天前
大数据·数据治理
7.1.5 大数据方法论与实践指南-日志系统+监控报警7.1.5 日志系统日志系统是大数据架构的基础组件,主要用于采集、存储、分析和检索系统运行过程中的各类日志数据,支撑业务监控、故障排查、用户行为分析、合规审计等场景。
北邮-吴怀玉10 天前
大数据·数据治理
7.1.1 大数据方法论与实践指南-数仓元数据平台(数据地图)7.1.1 数仓元数据平台(数据地图)7.1.1.1 数据地图作用在数仓体系中,数据地图(Data Map)是元数据管理的核心功能之一,它通过可视化、可检索的方式呈现数仓中所有数据资产的分布、关联关系及关键属性,帮助用户快速理解数据、定位数据并评估数据价值。其核心作用可概括为 “让数据资产‘可寻、可知、可用、可管’”,具体如下:
北邮-吴怀玉10 天前
大数据·数据治理
7.1.3 大数据方法论与实践指南-查询平台7.1.3 查询平台数仓自助查询平台需适配 Hive(离线大数据)、StarRocks(实时分析)、Presto(跨源查询)、SparkSQL(复杂批处理)的特性,通过统一入口提供低门槛、高性能、安全可控的自助查询能力。设计需兼顾各引擎的技术差异(如查询延迟、支持的语法、擅长场景),同时为用户屏蔽底层复杂度,核心功能设计如下:
北邮-吴怀玉11 天前
大数据·数据治理
6.1.2.1 大数据方法论与实践指南-离线任务分类6.1.2.1 离线任务分类一、按「处理阶段」分类(数据链路维度)对应数据仓库分层架构(ODS→DWD→DWS→ADS),任务按数据加工链路的先后顺序划分,体现数据从 “原始” 到 “可用” 的流转过程。
北邮-吴怀玉11 天前
大数据·数据治理·元数据
5.2 大数据方法论与实践指南-存储元数据治理5.2 元数据5.2.1 工具数仓开源元数据项目对比(Apache Atlas、Apache Gravitino、DataHub、OpenMetadata、Amundsen、Metacat、Marquez)
北邮-吴怀玉12 天前
大数据·飞书·数据治理
2.2.1.2 大数据方法论与实践指南-基于飞书项目的项目管理规范1.项目启动与需求对齐1.1 项目初始化与流程配置流程标准化:在飞书项目中创建项目空间,启用节点流工作模式,根据产品需求文档的敏捷开发流程,配置「需求评审→设计→开发→测试→验收」标准化节点,支持角色权限控制(如开发角色仅可见代码相关节点)。
北邮-吴怀玉13 天前
大数据·数据治理
2.2.1.1 大数据方法论与实践指南-公司产品&功能命名管理产品 & 功能命名规范的核心目标是统一跨团队语言(产品 / 开发 / 数据 / 运营)、降低协作成本、支撑数据治理与业务复用,需适配互联网产品 “快迭代、多模块、强关联” 的特点,覆盖 “产品命名” 与 “功能命名” 两大核心场景,兼顾 “用户认知友好” 与 “技术 / 数据落地高效”。
北邮-吴怀玉13 天前
大数据·数据治理
2.2.1.3 大数据方法论与实践指南-文档管理规范一、总则1.1 核心目标结合飞书文档的协作特性与安全能力,构建标准化、可追溯的产品文档管理体系,实现权限精细化控制、协作高效化、知识资产沉淀最大化。
Light6024 天前
数据治理·ipaas·apaas·权限一体化·接口契约·能力包
《中国电力产业数字化》深度解析与前沿展望(下)——中国电力数字化转型路线图:SPARK 融合平台的设计与落地方案导读:本文承接上篇,从《中国电力产业数字化》的战略蓝图出发,结合 SPARK 融合平台的工程化实践,提出一条“三步走”的转型路线图。全文以行业痛点为线索、以平台能力为抓手、以价值量化为凭证,并配套流程图与架构图,力求为央国企与大型电力企业提供可审计、可落地、可复用的参考路径。本文首发并置顶于作者 CSDN 博客专栏,欢迎行业同仁交流与补充案例。
胡耀超24 天前
安全·数据治理·数据安全·权限管理·安全架构·hadoop生态·合规审计
大数据平台安全指南——大数据平台安全架构全景:从认证授权到数据治理的企业级实践指南——认证、授权、审计、加密四大支柱认证、授权、审计、加密四大支柱传统安全 vs 大数据安全:传统IT系统的特点:大数据平台的特点:核心挑战:
fanstuck25 天前
数据库·sql·重构·数据挖掘·数据治理
开源项目重构我们应该怎么做-以 SQL 血缘系统开源项目为例在技术人的世界里,“写代码”是起点,但“重构代码”才是成长的开始。 写一个能跑起来的项目并不难,尤其在开源社区里,快速验证想法、实现功能是最常见的节奏。但当项目逐渐成型、功能越来越多、用户越来越多时,你会突然发现:它开始变慢了、变乱了、变得难以维护。那一刻,重构的信号就响了。这次我选择重构的,是一个我自己曾经开源出去的项目——SQL 血缘解析系统。 这个系统的核心目标其实很简单:从 SQL 语句中提取表、字段之间的依赖关系,并以可视化的方式呈现出“数据的流向”。
Jolie_Liang1 个月前
数据治理
金融领域数据治理与隐私保护研究报告在数字经济蓬勃发展的时代背景下,金融数据已成为推动金融业创新发展的核心生产要素。随着人工智能、大数据、区块链等技术在金融领域的广泛应用,金融数据的规模呈指数级增长,数据类型日益丰富,数据价值不断凸显。然而,与此同时,金融数据的安全风险也在不断累积,数据泄露、隐私侵犯、跨境流动监管等问题日益突出,对金融稳定和消费者权益保护构成严峻挑战。
数据要素X1 个月前
大数据·运维·数据仓库·微服务·数据治理·数据中台·可信数据空间
寻梦数据空间 | 架构篇:从概念到落地的技术实践与突破性创新[ 架构篇 ]—从概念到落地的技术实践与突破性创新—在数字经济时代,数据要素的可信流通与高效利用已成为企业数字化转型、国家数字基础设施建设的核心命题。数据空间作为破解“数据孤岛”、保障数据安全、释放数据价值的新型互联范式,其技术架构是将“可信流通”蓝图变为现实的关键载体。
数据要素X1 个月前
大数据·数据仓库·数据治理·数据中台
【大数据实战】如何从0到1构建用户画像系统(案例+数据仓库+Airflow调度)构建用户画像系统是一个涵盖数据架构、工程实现和业务应用的完整体系。其开发流程包含七个关键阶段:从目标解读、任务分解与需求调研,到需求场景明确、数据口径确认,再到特征选取与模型落表、线下验收测试,最终完成线上发布与效果追踪。
王百万_2 个月前
大数据·数据库·分布式·flink·spark·数据治理·数据库架构
【浅谈Spark和Flink区别及应用】Flink 和 Spark 是当前主流的大数据计算框架,核心差异在于 Flink 是基于流的实时计算框架,而 Spark 是基于批的离线计算框架(后通过 Spark Streaming 补充流处理能力)。 1. 核心计算模型(根本差异) Flink:流优先(Stream-First) 视所有数据为“无界流”,离线数据是“有界流”的特例,从底层设计上原生支持流处理,计算更实时、状态管理更精准。 Spark:批优先(Batch-First) 基于“弹性分布式数据集(RDD)”的批处理模型,流处理(Spark
千桐科技2 个月前
数据治理·大数据平台·qdata·开源数据中台·千数平台·java数据中台·qdata数据中台
轻松上手 qData 数据中台开源版:Docker Compose 助你10分钟跑起来谁适合看这份指南?我们已经为你准备好“开箱即用”的完整部署包,包括:不需要手动安装一堆依赖、不用构建前端、不用复杂配置。只需解压并运行脚本,整个大数据平台和 qData 就能跑起来! 零基础也能轻松搞定!10分钟体验 qData!