技术栈
元数据
Aloudata
3 天前
数据挖掘
·
自动化
·
apache
·
元数据
·
数据血缘
数据治理选型对比:Apache Atlas vs 商业平台在存储过程解析与自动化治理的实测分析
本文首发于 Aloudata 官方技术博客:《选型对比:Apache Atlas vs 商业元数据平台存储过程解析能力实测》转载请注明出处。
Aloudata
3 天前
金融
·
数据治理
·
元数据
·
noetl
·
数据血缘
金融数据治理新范式:如何用算子级血缘与主动元数据 10分 钟定位 EAST 报送异常?
本文首发于 Aloudata 官方技术博客:《EAST 报送前夜数据异常:如何用主动元数据 10 分钟定位根因?》 转载请注明出处。
Aloudata
4 天前
数据库
·
数据挖掘
·
数据治理
·
元数据
·
数据血缘
破解监管溯源难题:从表级血缘到算子级血缘的数据治理升级
摘要:在金融强监管背景下,传统表级血缘因精度不足,无法满足监管对指标口径和字段来源的精准追溯要求,导致数据团队陷入低效的“考古式”排查。本文深入探讨了数据治理中“最后一公里”的困局,并介绍了如何通过算子级血缘和主动元数据技术,实现监管指标的自动化盘点与精准溯源,将盘点周期从数月缩短至小时级,有效支撑 DataOps 流程与合规风控。
Aloudata
7 天前
数据挖掘
·
数据治理
·
元数据
·
数据血缘
告别 90% 误报率:基于算子级血缘实现精准数据治理与变更影响分析
本文首发于 Aloudata 官方技术博客:《变更影响分析误报率 90%?因为你还在用表级血缘做「假分析」》载请注明出处。
Aloudata
9 天前
sql
·
自动化
·
数据治理
·
元数据
·
数据血缘
EAST 口径文档自动化生成:破解 SQL 过滤条件解析难题,实现 20 倍效率提升
本文首发于 Aloudata 官方技术博客:《一表痛、EAST、1104 报表口径文档自动生成:解析 SQL 过滤条件,一键溯源与保鲜》转载请注明出处。
北京地铁1号线
23 天前
知识图谱
·
元数据
·
graphrag
1.3 元数据(Metadata)管理
在RAG中,元数据是“关于数据块的数据”。它不仅仅是附加信息,而是实现精准检索、可信溯源和高效过滤的关键。
wxl781227
2 个月前
元数据
·
rag
保险类文档 RAG 全流程实现方案
整页为单 Chunk:将单页保险文档作为 1 个检索单元(Chunk),保留内容逻辑关联性;元数据对齐:文档入库的元数据字段与提问提取的元数据字段完全一致,确保过滤检索精准;
腾飞开源
2 个月前
人工智能
·
元数据
·
检索增强生成
·
spring ai
·
chatclient
·
对话记忆
·
流式api
04_Spring AI 干货笔记之对话客户端 API
ChatClient 提供了用于与 AI 模型通信的流式 API,支持同步和流式两种编程模型。关于 ChatClient 中命令式与响应式编程模型结合使用的说明,请参阅本文档末尾的实现说明。
ITVV
2 个月前
元数据
元数据 Unity Catalog v0.3.0 安装
以下图片来自网络检查 JAVA 版本,需要 17执行命令(编译加启动)首先停止start-uc-server
ITVV
2 个月前
ui
·
元数据
元数据 Unity Catalog v0.3.0 UI
需要先启动UC server (./bin/start-uc-server)浏览器打开地址: http://192.168.71.129:3000/
XueminXu
3 个月前
clickhouse
·
system
·
元数据
·
databases
·
system.tables
·
system.columns
·
system.settings
ClickHouse查看数据库、表、列等元数据信息
ClickHouse提供系统表查询数据库的状态,包括服务器环境、数据库信息、表信息、列信息、函数、配置等信息。系统表位于system数据库中,仅可用于读取数据,大多数系统表数据会加载到内存中。CK提供的系统表主要包括:
RestCloud
3 个月前
数据仓库
·
etl
·
数据处理
·
数据传输
·
元数据
·
数据集成平台
·
dataops
让数据流动更智能:元数据如何重塑DataOps与ETL
近几年,随着企业数据资产规模的指数级增长,传统的ETL和数据集成方式已经难以应对多源、异构、实时和高频变化的数据场景。 Gartner 在其最新的《Data Integration Strategies》和《Market Guide to DataOps》报告中提出了一个重要趋势:“未来的数据管理将以元数据为中心,从静态记录走向主动驱动(Metadata Activation)。”
北邮-吴怀玉
3 个月前
大数据
·
数据治理
·
元数据
5.2 大数据方法论与实践指南-存储元数据治理
5.2 元数据5.2.1 工具数仓开源元数据项目对比(Apache Atlas、Apache Gravitino、DataHub、OpenMetadata、Amundsen、Metacat、Marquez)
XueminXu
5 个月前
sql
·
spark
·
spark-sql
·
sql文件
·
元数据
·
sql脚本
·
hms
Spark-SQL任务提交方式
Spark-SQL在一定程度上可以代替Hive,但一般依赖Hive的元数据,即Metastore。Spark-SQL的交互式模式可以运行bin/spark-sql进入,按照类似hive方式写SQL代码。
妙BOOK言
6 个月前
论文阅读
·
元数据
·
分布式文件系统
FalconFS: Distributed File System for Large-Scale Deep Learning Pipeline——论文阅读
NSDI 2026 Paper 分布式元数据论文阅读笔记整理分布式文件系统(DFS)是现代数据中心的重要组成部分。通过在统一的分层目录结构中提供符合POSIX标准的文件接口,DFS实现了对底层存储资源的通用访问,从而简化了存储管理,促进了不同应用程序之间的数据共享[2,35]。
isNotNullX
8 个月前
大数据
·
数据仓库
·
数据治理
·
etl
·
元数据
一文辨析:数据仓库、数据湖、湖仓一体
目录一、数据仓库1.结构化数据为主2.OLAP 优化3.强一致性保障4.SQL 优先接口二、数据湖1. SchemaonRead结构
isNotNullX
8 个月前
大数据
·
数据库
·
数据仓库
·
数据治理
·
元数据
什么是数据清洗?数据清洗有哪些步骤?
目录一、数据清洗的定义和重要性1. 数据清洗的定义2. 数据清洗的重要性二、数据清洗的前期准备1. 明确清洗目标
程序员一一涤生
8 个月前
知识库
·
标签
·
元数据
·
rag
RAG越来越不准?一文详解元数据与标签的系统优化方法(附完整流程图+实用提示词)
你是不是也遇到过这样的场景?其实,你不是一个人。90%的RAG系统体验不理想,核心问题并不在于大模型“笨”,而是元数据、标签、知识目录这“三板斧”没有用对!
程序员一一涤生
9 个月前
知识库
·
元数据
·
rag
RAG越来越不准?你可能忽略了“元数据”的力量
结果它却信誓旦旦地告诉了你B软件的安装步骤。在这个过程中,你可能已经花了大量时间解析和清洗上千份文档,接入RAG,但结果仍然不理想。
镜舟科技
10 个月前
starrocks
·
数据分析
·
apache
·
iceberg
·
数据湖
·
湖仓一体
·
元数据
Apache Iceberg 解析,一文了解Iceberg定义、应用及未来发展
Apache Iceberg 是一种开源的 表格式(Table Format) ,专为超大规模数据分析场景设计,通过标准化数据存储规范与访问协议,解决了传统数据湖在元数据管理、事务控制、查询性能等方面的核心痛点。以下从六个维度全面解析其技术原理、应用场景与最佳实践。