技术栈
数据仓库
Timer_Cooker
2 小时前
数据仓库
·
hive
·
hadoop
Hive 分区表变更字段长度不生效
同事使用Alter语句变更了Hive分区表的字段长度,发现历史分区的字段长度没有被改变,查百度,问AI也没问出个所以然,问我是怎么回事。
RestCloud
17 小时前
数据仓库
·
etl
·
数据处理
·
数据传输
·
元数据
·
数据集成平台
·
dataops
让数据流动更智能:元数据如何重塑DataOps与ETL
近几年,随着企业数据资产规模的指数级增长,传统的ETL和数据集成方式已经难以应对多源、异构、实时和高频变化的数据场景。 Gartner 在其最新的《Data Integration Strategies》和《Market Guide to DataOps》报告中提出了一个重要趋势:“未来的数据管理将以元数据为中心,从静态记录走向主动驱动(Metadata Activation)。”
喻师傅
1 天前
数据仓库
·
架构
数据仓库——总线架构详解
如果你刚开始接触数据仓库建模,可能会听到一个词:“总线架构”(Bus Architecture)。听起来有点抽象,像是计算机硬件里的“系统总线”,但在数据仓库中,它其实是一个非常关键的顶层设计思想。
RyanJohnson
1 天前
数据仓库
·
1024程序员节
企业数据仓库
数据仓库(英语:data warehouse,也称为企业数据仓库),简称DW。数据仓库是用于集成,存储大量数据,并用于数据分析和报告的企业系统,通常用于企业级数据管理。
北邮-吴怀玉
2 天前
大数据
·
数据仓库
5.1.5 大数据方法论与实践指南-数据仓库存储格式选择
选择合适的存储格式,需要在查询性能、写入性能、存储成本、压缩效率、模式演化支持、生态系统兼容性等多个维度进行权衡。现代数据仓库(尤其是基于数据湖的架构)提供了多种列式存储格式作为首选。
派可数据BI可视化
2 天前
大数据
·
数据仓库
·
信息可视化
·
数据挖掘
·
数据分析
数字化转型迫在眉睫,企业应该如何面对?
火热的数字化转型,在国企、央企公布数字化转型规划后,进一步向各行各业开始扩散,吸引了很多对于数字化并不熟悉的企业。这些企业大多没有一个确定的目标,只是想要让企业完成转型改革,所以对于怎样做没有什么好的规划。
SeaTunnel
4 天前
大数据
·
数据仓库
·
数据分析
·
数据同步
(二)从分层架构到数据湖仓架构:数据仓库分层下的技术架构与举例
《新兴数据湖仓设计与实践手册·从分层架构到数据湖仓架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据湖仓架构的设计与实践。手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数湖仓分层设计,最后探讨数据仓库技术趋势并进行小结。
数智顾问
4 天前
数据仓库
Hive数据仓库架构原理深度解析与核心实践指南
在大数据时代,企业数据量呈指数级增长,传统关系型数据库在处理海量非结构化/半结构化数据时面临扩展性差、计算效率低等挑战。Hive数据仓库作为基于Hadoop生态的批处理型数据仓库解决方案,通过将SQL查询转换为MapReduce/Tez/Spark等分布式计算任务,实现了“类SQL操作海量数据”的能力,成为企业数据湖与离线分析场景的核心工具。本文将围绕**“Hive数据仓库:架构原理与实践指南”**这一核心,深入解析其架构设计逻辑、关键概念,并通过典型代码案例展示核心技巧与应用场景。
那我掉的头发算什么
5 天前
android
·
数据库
·
数据仓库
·
sql
·
mysql
·
数据库开发
·
数据库架构
【数据库】navicat的下载以及数据库约束
前几章我们演示代码的时候使用的都是命令行,在代码量少的时候确实可以这样做,但一旦代码量大的时候用起来就会很不方便。今天我给大家推荐一款图形化软件:navicat。
励志成为糕手
6 天前
大数据
·
数据仓库
·
hive
·
1024程序员节
·
hql
Hive数据仓库:架构原理与实践指南
🌟 你好,我是 励志成为糕手 ! 🌌 在代码的宇宙中,我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光,在逻辑的土壤里生长成璀璨的银河; 🛠️ 每一个算法都是我绘制的星图,指引着数据流动的最短路径; 🔍 每一次调试都是星际对话,用耐心和智慧解开宇宙的谜题。 🚀 准备好开始我们的星际编码之旅了吗?
半梦半醒*
7 天前
linux
·
运维
·
数据仓库
·
elasticsearch
·
centos
ELK1——elasticsearch
ELK是一套开源的日志分析系统,由elasticsearch+logstash+Kibana组成。官网说明:https://www.elastic.co/cn/products,elk下载地址:https://www.elastic.co/cn/downloads 首先: 先一句话简单了解E,L,K这三个软件 elasticsearch: 分布式搜索引擎 logstash: 日志收集与过滤,输出给elasticsearch Kibana: 图形化展示
通往曙光的路上
7 天前
数据仓库
·
hive
·
hadoop
day17_cookie_webstorage
浏览器中需要有存储数据的技术 从而释放服务端的存储压力1 存在浏览器中2 按域(domian 域名) 存储
呆呆小金人
8 天前
大数据
·
数据库
·
数据仓库
·
sql
·
数据库开发
·
etl
·
etl工程师
SQL入门:正则表达式-高效文本匹配全攻略
标准 SQL 中,正则表达式(Regular Expression)是处理字符串模式匹配的强大工具,用于实现复杂的文本检索、验证和替换(如匹配邮箱格式、提取特定字符等)。虽然标准 SQL 对正则的支持不如编程语言全面,但主流数据库均通过扩展函数提供了核心功能。以下从基础概念、语法规则、主流数据库实现、常见场景及注意事项五个维度详解。
想ai抽
8 天前
大数据
·
数据仓库
·
spark
大数据计算引擎-从源码看Spark AQE对于倾斜的处理
Spark SQL 的自动加盐优化核心用于解决数据倾斜场景下的聚合 / Join 性能问题,其源码逻辑主要分散在 Catalyst 优化器(逻辑计划优化) 和 Adaptive Query Execution (AQE) 执行引擎(运行时优化) 中,且针对 普通聚合(sum/count) 和 count(distinct) 的处理逻辑存在差异。以下从源码架构、核心模块、关键逻辑三方面拆解说明。
呆呆小金人
8 天前
大数据
·
数据库
·
数据仓库
·
sql
·
数据库开发
·
etl
·
etl工程师
SQL入门:别名使用完全指南
在 SQL 中,别名(Alias)是为表、列或表达式指定的临时名称,用于简化查询语句、提升可读性,尤其在多表关联或复杂计算场景中不可或缺。标准 SQL 对别名的使用有明确规范,以下从基础定义、语法规则、使用场景、注意事项四个维度详细解析。
想ai抽
9 天前
大数据
·
数据仓库
·
spark
Spark的shuffle类型与对比
实际应用中,Spark 2.0 + 默认优先使用 Sort Merge Shuffle(Reducer 数多)或其 Bypass 子机制(Reducer 数少),小表 Join 自动触发 Broadcast 机制,无需关注 Hash 类 Shuffle(已淘汰)。
派可数据BI可视化
10 天前
大数据
·
数据库
·
数据仓库
·
信息可视化
·
数据挖掘
·
数据分析
商业智能BI 浅谈数据孤岛和数据分析的发展
大数据时代,企业对数据的重视力度逐步增强,数据分析、数据治理、数据管理、数据资产,已经被人们熟知,在数据的统计汇总和挖掘分析下,管理者的决策有了强有力的支撑和依据,同时也产生了新的问题,各项数据都有,却有各自独立不互联,各自为政的数据,让管理者很难看清集团的整体经营情况,这就是人们常说的数据孤岛,打破数据孤岛的壁垒,实现各业务系统数据的整合和分析,才是企业需要的数据分析。
SirLancelot1
11 天前
大数据
·
数据库
·
数据仓库
·
sql
·
数据分析
·
database
·
数据库架构
StarRocks-基本介绍(一)基本概念、特点、适用场景
写时建模(Schema-on-Write)已经经过处理高度结构化服务于特定目标需要满足高性能分析需求读时建模(Schema-on-Read)