技术栈
数据治理
计算所陈老师
5 天前
大数据
·
人工智能
·
数据治理
·
信息抽取
基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(四)
上一篇介绍了基于SmartETL框架实现arxiv采集处理的基本流程,通过少量的组件定制开发,配合yaml流程配置,实现了复杂的arxiv采集处理。
试着
6 天前
人工智能
·
数据治理
·
gdpr脱敏机制
【AI面试准备】数据治理与GDPR脱敏机制构建
介绍数据治理:构建符合GDPR的测试数据脱敏机制。如何快速掌握,以及在实际工作中如何运用。数据治理是确保数据质量、安全性和合规性的系统性方法,而构建符合GDPR(《通用数据保护条例》)的测试数据脱敏机制是其中的关键环节。以下将从核心概念、技术实现、快速掌握方法以及实际应用四个方面展开详解。
胡耀超
13 天前
大数据
·
金融
·
数据治理
·
生命周期
·
数据分类
·
政策法规
附1:深度解读:《金融数据安全 数据安全分级指南》——数据分类的艺术专栏系列
相关专栏:数据分类的艺术《金融数据安全 数据安全分级指南》由中国人民银行提出、全国金融标准化技术委员会归口的标准,对金融行业数据安全管理具有重要指导意义。
梦想画家
14 天前
数据治理
·
sqlmesh
SQLMesh 模型选择指南:优化大型项目的模型更新
在处理大型 SQLMesh 项目时,模型之间的依赖关系可能会变得非常复杂。为了更有效地管理这些项目,SQLMesh 提供了一种模型选择机制,允许用户有针对性地选择需要更新的模型。本文将详细介绍如何使用 SQLMesh 的模型选择功能来优化项目更新过程。
胡耀超
14 天前
大数据
·
人工智能
·
分类
·
数据挖掘
·
数据治理
·
数据分类
·
分类分级
5.第五章:数据分类的方法论
相关专栏:数据分类的艺术数据分类是数据治理中一个重要的模块,其目的是根据数据的内容、属性、应用场景等特征,将海量杂乱无章的原始数据划分到预先定义的若干个类别中,从而便于后续的数据管理、分析和应用。一个优秀的数据分类方法不仅能够提高数据管理的效率,还能发掘数据的内在联系和价值。本章将系统介绍数据分类的各种方法,从传统技术到前沿创新,力求为读者提供一个全面的视角。
TGITCIC
17 天前
大模型
·
数据治理
·
ai agent
·
rag检索增强
·
mcp
·
大模型数据
·
ai数据
智驱未来:AI大模型重构数据治理新范式
在制造业巨头西门子的案例中,其全球200个工厂每天产生1.2PB工业数据,传统人工清洗需要300名工程师耗时72小时完成,错误率高达15%。数据孤岛问题导致供应链决策延迟平均达48小时。
三倍镜
21 天前
数据治理
数据治理全攻略:释放数据资产的巨大价值
在当今数字化浪潮中,数据已成为企业的核心资产,它不仅能记录历史,更能预测未来。企业对数据治理的重视程度逐年上升,因为数据背后潜藏的巨大商业价值。本文将深入浅出地阐述数据治理的内涵、重要性,剖析企业在数据治理过程中面临的价值、问题与挑战。
亿信华辰软件
21 天前
数据治理
·
主数据管理
白酒制造主数据管理全链路解析:业务重塑与AI赋能
作为中国消费领域的支柱产业之一,白酒行业在消费升级、渠道多元化的浪潮下,企业正面临库存积压、串货乱价、质量追溯难等核心痛点。如何通过主数据管理实现业务全链路的标准化与智能化,已成为行业数字化转型的关键命题。
chat2tomorrow
21 天前
大数据
·
数据仓库
·
低代码
·
数据治理
·
snowflake
·
sql2api
如何构建类似云数据仓库 Snowflake 的本地数据仓库?
目录一、Snowflake 架构的三大核心价值二、本地数据仓库要“像 Snowflake”,关键在数据服务化
梦想画家
22 天前
数据治理
·
数据工程
全链路开源数据平台技术选型指南:六大实战工具链解析
在数字化转型加速的背景下,开源技术正重塑数据平台的技术格局。本文深度解析数据平台的全链路架构,精选六款兼具创新性与实用性的开源工具,涵盖数据编排、治理、实时计算、联邦查询等核心场景,为企业构建云原生数据架构提供可落地的选型参考。
亿信华辰软件
1 个月前
数据治理
制造企业数据治理体系搭建与业务赋能实践
当下制造企业正面临着前所未有的机遇与挑战,从多环节业务协同的复杂性,到海量数据资源的沉睡与孤岛化;从个性化定制需求的爆发,到供应链效率优化的迫切性——如何通过数据治理将“数据包袱”转化为“数据资产”,已成为企业实现降本增效、构筑核心竞争力的关键命题。
涤生大数据
1 个月前
数据仓库
·
数据治理
·
数仓
·
数据开发
·
及时性
数据质量问题中,数据及时性怎么保证?如何有深度体系化回答!
数据治理,数据质量这快是中大厂,高阶大数据开发面试必备技能,企业基于大数据底座去做数仓,那么首先需要保障的就是数据质量。
亿信华辰软件
1 个月前
人工智能
·
大模型
·
数据治理
大模型重构数据治理新范式:亿信华辰“AI+睿治“的六大智能化突破
在人工智能技术取得突破性进展的今天,大模型正为数据治理领域带来颠覆性变革。亿信华辰创新推出行业首个"大模型+知识图谱"双引擎驱动的"AI+睿治"智能数据治理平台,通过自然语言处理(NLP)、特征识别、机器学习等技术的深度融合,为企业打造从数据标准管理到资产化的全流程智能治理解决方案,开启数据治理的"自动驾驶"时代。
计算所陈老师
1 个月前
人工智能
·
数据治理
基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(一)
arXiv简介(参考DeepSeek大模型生成内容):由于arXiv的这些特点,对于做科技动态跟踪来说,arXiv就是一个重要的论文来源。通过对arXiv论文进行采集、处理和分析,可以帮助我们了解前沿热门技术、分析技术研究的演化脉络、构建学术合作网络、辅助开展科研等。
软信数据研究院
1 个月前
大数据
·
信息可视化
·
数据挖掘
·
数据分析
·
数据治理
·
数据管理
·
自助数据分析
软信天成:从“等数据”到“用数据”,自助数据分析如何让企业快人一步?
随着业务的拓展,企业捕获的数据量呈爆发式增长,与之相应,对数据的分析需求也愈发迫切。业务用户渴求快速分析数据,以预测和应对不断变化的市场趋势。然而,传统的数据分析模式却像一道枷锁,束缚了企业的前进步伐。
王百万_
2 个月前
数据治理
·
hudi
·
湖仓一体
·
ddl
·
华为mrs
·
create table
【Hudi-SQL DDL创建表语法】
命令功能CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。命令格式参数描述
亿信华辰软件
2 个月前
大数据
·
数据治理
某金融租赁公司数据治理实践
在数字经济浪潮席卷全球的当下,数据资产已成为金融租赁行业转型升级的核心引擎。某金融租赁公司(以下简称W公司)面对数字化转型的战略机遇期,开启了一场"以数据筑基、用治理破局"的革新实践。通过构建"四位一体"的治理框架,打通数据价值链的关键堵点,该公司不仅实现了从数据资源到数据资本的跨越式进化,更在风险防控、业务创新和客户服务领域构筑起差异化的数字竞争力。本案例将深度解码其如何以系统性思维破解治理困局,为金融租赁行业提供数字化转型的鲜活范本。
moton2017
2 个月前
大数据
·
架构
·
数据治理
·
数据架构
·
数据管控
·
主数据管理
·
数据根系
九、数据治理架构流程
《数据治理架构流程图》(Data Governance Architecture Flowchart)
vx15302782362
3 个月前
java
·
大数据
·
人工智能
·
cdga
·
数据治理
CDGA|企业数据治理实战:从疏通“信息河”到打造优质“数据湖”
在当今的数字化时代,数据已成为企业的重要资产,其价值不言而喻。然而,面对海量的数据,如何进行有效的治理,将其转化为企业的竞争优势,成为了众多企业面临的难题。本文将深入探讨企业数据治理的实战策略,从疏通“信息河”到打造优质的“数据湖”,助力企业实现数据价值的最大化。
王百万_
3 个月前
大数据
·
数据库
·
clickhouse
·
数据治理
·
数据库架构
【ClickHouse 特性及应用场景】
传统数据库在数据大小比较小,索引大小适合内存,数据缓存命中率足够高的情形下能正常提供服务。但残酷的是,这种理想情形最终会随着业务的增长走到尽头,查询会变得越来越慢。你可能通过增加更多的内存,订购更快的磁盘等等来解决问题(纵向扩展),但这只是拖延解决本质问题。如果你的需求是解决怎样快速查询出结果,那么ClickHouse也许可以解决你的问题。