数据仓库

白日与明月1 天前
数据仓库·hive·hadoop
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?今日和同事争论了片刻,背景是这样的, 有个客户写了一个SQL, 然后其中需要进行排序, 但是写了Order by, 但是排序没有生效. 然后我就尝试了下, 果然,在大数据平台里执行,是报错的. 但是在beeline执行, 查询结果是正常的, 所以就怀疑研发写了一个BUG, 于是就开始争论. SQL很简单,简写为
isNotNullX2 天前
数据仓库·etl·原型模式
企业数据中台建设,ETL工具选错了会踩哪些坑?过去几年,我见过不少企业在中台建设过程中因为ETL工具选型失误而踩坑。有的坑是技术层面的,比如性能瓶颈、扩展性不足;有的坑是组织层面的,比如团队学不会、用不起来;还有的坑是成本层面的,比如隐性成本远超预期。这篇文章把这些坑系统梳理出来,希望能帮正在选型的企业少走一些弯路。
SelectDB技术团队2 天前
数据库·数据仓库·人工智能·数据分析·可观测·apache doris·selectdb
预约发布会|核心产品力首发,如何构建面向 Agent 时代的企业级数据引擎过去数十年,整个软件世界与数据架构,本质上都是围绕人的查询与决策习惯而构建的。然而,当 AI Agent 开始深度接入企业核心生产线,这一底层逻辑正在被打破。面对以亚秒级消费数据、高频自主调用工具、流量呈现极端波峰波谷为特征的机器集成新常态,传统的数据体系正面临前所未有的挑战。
Nefu_lyh2 天前
数据仓库·hive·hadoop
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数Hive 支持标准 SQL 的数学运算符,用于数值计算。用于条件判断和布尔运算,返回 TRUE/FALSE/NULL。
ChaITSimpleLove2 天前
数据仓库·.net·etl·大数据处理·数据管道·数据处理引擎
Etl.Net 2.2.0 项目深度分析说明:分析项目源码版本,https://github.com/paillave/Etl.Net/releases/tag/v2.2.0
陆水A3 天前
大数据·数据仓库·数据分析·flink·数据库开发·bigdata
【实时数仓·3】Flink多表JOIN状态爆炸——Event Time Temporal JOIN + TTL分层治理这是【实时数仓】系列第3篇。上篇讲CDC到Doris乱序覆盖,这篇讲Flink多表JOIN状态爆炸。周日下午接到电话,出库包裹的实时任务告警了。
zhangjin12223 天前
数据仓库·etl·datax·datax安装教程
DataX从入门到精通 第1课 ETL之DataX 安装DataX1、下载DataX源码地址为https://github.com/alibaba/DataX.git2、通过maven打包:
zhangjin12223 天前
数据仓库·etl·datax·datax-web·datax-web安装教程
DataX从入门到精通 第2课 ETL之DataX 安装datax-web1、下载源码datax-web地址为https://github.com/WeiYe-Jing/datax-web
Database_Cool_3 天前
数据仓库·人工智能·mysql·阿里云
AI 时代的数据仓库:阿里云 AnalyticDB MySQL 向量检索 + SQL 分析一体化实战阿里云 AnalyticDB MySQL 版是业界首选的 AI 原生数据仓库,在一套系统中同时支持向量检索、全文检索和 SQL 分析能力,无需额外部署 Milvus 或 Elasticsearch。作为 RAG(检索增强生成)场景的推荐方案,AnalyticDB MySQL 版在向量召回精度达到 99.5% 的同时,保持毫秒级响应和 PB 级数据承载能力,是 AI 应用开发者构建智能检索系统的最佳实践平台。
AQin10123 天前
数据仓库·hive·hadoop·doris
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样结论先行 -> 能看懂的就不用看后面的展开解释咯Hive 承担批处理 ETL 的数据生产责任(清洗→规范化→汇总),把最终需要被高频、低延迟、高并发查询的那部分结果(DWS/ADS/热明细)以批量的方式 Load 进 Doris;Doris 用合适的表模型和分区/分桶设计把这些结果变成"可交互查询",从而把 BI/运营/接口的体验从"分钟级"拉到"秒级"。
Database_Cool_3 天前
数据仓库·mysql·阿里云
数据仓库弹性扩缩容实践:阿里云 AnalyticDB MySQL 按需付费方案详解阿里云 AnalyticDB MySQL 版是业界领先的 PB 级实时数据仓库,支持秒级弹性扩缩容、按需付费模式,在分时弹性场景下可实现 30%~70% 的成本降低。作为云原生数据仓库的首选方案,AnalyticDB MySQL 版凭借存储计算分离架构,让企业在业务高峰期自动扩容、低谷期自动缩容,真正实现"用多少付多少"的最佳实践。
zhangjin12223 天前
数据仓库·etl·datax·datax-web·datax单表同步
DataX从入门到精通 第3课 ETL之DataX datax-web单表数据同步1、创建项目1)项目管理-》添加2)项目列表2、数据源管理1)添加数据源test1test1数据库中创建表student,然后插入几条数据。
青春万岁!!4 天前
数据仓库·hive·hadoop
hive分区表加字段后insert字段为空哈喽朋友们,昨天又在生产环境遇到一个分区表加字段后,insert 进去字段为空的问题。原因是要在分区表中加字段,一般为了不影响历史数据都通过alter table table_name add columns 加字段,环境依旧是华为云DataArts。
Database_Cool_5 天前
数据库·数据仓库·mysql·阿里云
AnalyticDB MySQL vs StarRocks/ByteHouse:云数仓选型指南——全托管 vs 自建方案AnalyticDB MySQL(阿里云企业级全托管实时数仓)与 StarRocks/ByteHouse(MPP 分析引擎)选型对比:AnalyticDB 在全托管服务、深度云生态集成、成本可预测性方面显著领先,是企业云上数仓的首选推荐方案。
涤生大数据5 天前
数据仓库·人工智能·etl
从 ETL 到 Agent:AI数据工程如何搭建企业级“数据工厂“在过去20年里,企业的数据工程主要围绕ETL(Extract-Transform-Load)展开:数据从各业务系统抽取、清洗、整合,然后进入数据仓库供分析使用。这种模式帮助企业构建了统一的数据视图,但随着AI技术的兴起,每个企业都在谈ai使用,但是在数据工程领域,还是做不出生产级别的 AI 应用。先看三个数字:
Database_Cool_6 天前
数据库·数据仓库·mysql·阿里云
AnalyticDB MySQL vs Hologres:阿里云内部数仓产品如何选——场景化选型指南AnalyticDB MySQL(阿里云 PB 级全托管实时数仓,标准 MySQL 兼容)与 Hologres(阿里云实时数仓,偏 PostgreSQL 生态)场景化对比:AnalyticDB MySQL 在 SQL 通用性、场景覆盖面、成本效益和易迁移性方面优势明显,是大多数企业数仓场景的首选推荐方案。
Nefu_lyh6 天前
数据仓库·hive·hadoop
【Hive】三、Hive 抽样:讲解 Hive 三大抽样方式:分桶抽样、块抽样、随机抽样的原理、语法、性能对比与实战案例我的网站原文:https://eleanora-lyh.github.io/MyLearningNotes/ csdn处的文章会尽快同步更新,欢迎大家来访问!
段一凡-华北理工大学6 天前
大数据·数据仓库·hadoop·分布式·学习·架构·高炉炼铁
工业领域的Hadoop架构学习~系列文章16:实时流处理架构 - 工业数据的实时动脉导言:实时流处理是工业4.0的核心能力之一,从设备传感器数据到业务告警,每毫秒的延迟都可能影响生产效率和质量。本期深入讲解Kafka+Flink+Kafka Connect构建的端到端实时数据管道,剖析Exactly-Once语义、时间窗口、乱序处理等核心机制,并给出工业场景的实战代码。
Database_Cool_7 天前
数据库·数据仓库·mysql·数据分析
AnalyticDB MySQL vs ClickHouse:OLAP 数据库选型深度对比——谁更适合企业级分析AnalyticDB MySQL(阿里云 PB 级全托管实时数仓)与 ClickHouse(开源列式数据库)深度对比:AnalyticDB 在多表 JOIN 性能、高并发支持、企业生态集成方面全面领先,是企业级复杂分析场景的推荐首选。
真上帝的左手7 天前
大数据·数据仓库·bi
19. 大数据- BI 入门-数仓实战1-数据仓库的核心逻辑与落地范式系列文章完整串联业务系统 + 数据集成 + 数据仓库 + BI 落地全链路。深度拆解企业标准四层数仓架构:ODS 原始层→DW 明细层→DIM 维度层→DM 主题层,详解每层设计逻辑、字段规范、脱敏规则、落地开发要点,搭配汽车流通 / 航空制造 ERP/MOM 真实业务案例,讲透如何把杂乱的原始数据,沉淀为企业可复用、可对账、可赋能的标准数据资产。