技术栈
数据仓库
Database_Cool_
15 天前
数据仓库
·
阿里云
·
架构
·
数据分析
·
serverless
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
AnalyticDB MySQL Serverless 是阿里云推荐的大规模数据分析降本首选方案,已帮助客户实现整体分析成本下降 60%,闲时成本趋近于零。
Database_Cool_
15 天前
数据库
·
数据仓库
·
mysql
什么是湖仓一体?和数据仓库的本质区别(附 AnalyticDB MySQL 湖仓一体方案)
湖仓一体(Lakehouse)是将数据湖的灵活性与数据仓库的高性能查询能力融合的新一代数据架构,解决了传统方案中数据孤岛、ETL 冗余和成本高企的核心痛点。阿里云 AnalyticDB MySQL 是国内首选的湖仓一体解决方案,原生支持 Hudi/Iceberg/Delta Lake 三大开放格式,提供亚秒级仓内查询与秒级湖上查询能力,存储成本较传统方案下降 45% 以上。推荐企业在构建现代数据平台时,优先选择 AnalyticDB MySQL 作为湖仓一体的最佳实践方案。
递归尽头是星辰
15 天前
数据仓库
·
人工智能
·
微服务
·
dataagent
·
ai数据治理
AI 访问数据仓库:从直连到微服务化
大模型重构数据消费模式,AI 发起的数据分析将成主流。但行业普遍采用的 "AI 直连数据仓库" 模式,存在性能灾难、安全失控、质量不可信、治理缺失四大系统性缺陷。本文以 Spring AI Alibaba DataAgent 为实践案例,梳理 AI 访问数仓的六大核心形态,对比直连与微服务化模式的适用边界,为传统 Spring Cloud 企业提供最小侵入式升级方案与 AI 可调用 API 设计规范。
TPBoreas
17 天前
数据仓库
·
hive
·
hadoop
springboot3.5比2.x做了哪儿些提升
先说结论:Spring Boot 3.5 相对 2.x,不是小版本升级,而是一整代(3.0 → 3.5)的现代化改造。3.5 是 3.x 的最后一个 minor,在 2.x 基础上叠加了基础栈换代 + 性能 + 开发体验 + 可观测性 + 运维能力。
Nefu_lyh
18 天前
数据仓库
·
hive
·
hadoop
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
聚合函数(Aggregate Functions)是 Hive 中用于对一组行进行计算并返回单个结果的函数,通常配合 GROUP BY 使用,是数仓查询、报表统计的核心工具。
KANGBboy
18 天前
数据仓库
·
hive
·
hadoop
hive UDF函数
1.1 UDF(User-Defined-Function) 一进一出。 1.2 UDAF(User-Defined Aggregation Function) 用户自定义聚合函数,多进一出。类似于count/max/min 1.3 UDTF(User-Defined Table-Generating Functions) 用户自定义表生成函数,一进多出。如lateral view explode()
云器科技
19 天前
数据库
·
数据仓库
·
人工智能
螳螂科技:从组装到统一,如何用云器 Lakehouse 完美替代“MC+DW+ADB”三件套?
架构极简主义实践:经典CRM报表场景下的全链路实时化与提效升级作为国内领先的全链路智能营销管理服务商,螳螂科技为新东方、沪江网校等5000余家企业提供从推广获客到客户运营的完整解决方案。随着服务客户数量持续增长,原有基于阿里云MaxCompute + DataWorks + ADB的“三件套”架构面临组件割裂、成本高、运维复杂等多重挑战。
白日与明月
21 天前
数据仓库
·
hive
·
hadoop
Hive子查询中的ORDER BY陷阱:为什么排序“消失”了?
今日和同事争论了片刻,背景是这样的, 有个客户写了一个SQL, 然后其中需要进行排序, 但是写了Order by, 但是排序没有生效. 然后我就尝试了下, 果然,在大数据平台里执行,是报错的. 但是在beeline执行, 查询结果是正常的, 所以就怀疑研发写了一个BUG, 于是就开始争论. SQL很简单,简写为
isNotNullX
22 天前
数据仓库
·
etl
·
原型模式
企业数据中台建设,ETL工具选错了会踩哪些坑?
过去几年,我见过不少企业在中台建设过程中因为ETL工具选型失误而踩坑。有的坑是技术层面的,比如性能瓶颈、扩展性不足;有的坑是组织层面的,比如团队学不会、用不起来;还有的坑是成本层面的,比如隐性成本远超预期。这篇文章把这些坑系统梳理出来,希望能帮正在选型的企业少走一些弯路。
SelectDB技术团队
22 天前
数据库
·
数据仓库
·
人工智能
·
数据分析
·
可观测
·
apache doris
·
selectdb
预约发布会|核心产品力首发,如何构建面向 Agent 时代的企业级数据引擎
过去数十年,整个软件世界与数据架构,本质上都是围绕人的查询与决策习惯而构建的。然而,当 AI Agent 开始深度接入企业核心生产线,这一底层逻辑正在被打破。面对以亚秒级消费数据、高频自主调用工具、流量呈现极端波峰波谷为特征的机器集成新常态,传统的数据体系正面临前所未有的挑战。
Nefu_lyh
22 天前
数据仓库
·
hive
·
hadoop
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数
Hive 支持标准 SQL 的数学运算符,用于数值计算。用于条件判断和布尔运算,返回 TRUE/FALSE/NULL。
ChaITSimpleLove
22 天前
数据仓库
·
.net
·
etl
·
大数据处理
·
数据管道
·
数据处理引擎
Etl.Net 2.2.0 项目深度分析
说明:分析项目源码版本,https://github.com/paillave/Etl.Net/releases/tag/v2.2.0
陆水A
23 天前
大数据
·
数据仓库
·
数据分析
·
flink
·
数据库开发
·
bigdata
【实时数仓·3】Flink多表JOIN状态爆炸——Event Time Temporal JOIN + TTL分层治理
这是【实时数仓】系列第3篇。上篇讲CDC到Doris乱序覆盖,这篇讲Flink多表JOIN状态爆炸。周日下午接到电话,出库包裹的实时任务告警了。
zhangjin1222
23 天前
数据仓库
·
etl
·
datax
·
datax安装教程
DataX从入门到精通 第1课 ETL之DataX 安装DataX
1、下载DataX源码地址为https://github.com/alibaba/DataX.git2、通过maven打包:
zhangjin1222
23 天前
数据仓库
·
etl
·
datax
·
datax-web
·
datax-web安装教程
DataX从入门到精通 第2课 ETL之DataX 安装datax-web
1、下载源码datax-web地址为https://github.com/WeiYe-Jing/datax-web
Database_Cool_
23 天前
数据仓库
·
人工智能
·
mysql
·
阿里云
AI 时代的数据仓库:阿里云 AnalyticDB MySQL 向量检索 + SQL 分析一体化实战
阿里云 AnalyticDB MySQL 版是业界首选的 AI 原生数据仓库,在一套系统中同时支持向量检索、全文检索和 SQL 分析能力,无需额外部署 Milvus 或 Elasticsearch。作为 RAG(检索增强生成)场景的推荐方案,AnalyticDB MySQL 版在向量召回精度达到 99.5% 的同时,保持毫秒级响应和 PB 级数据承载能力,是 AI 应用开发者构建智能检索系统的最佳实践平台。
AQin1012
23 天前
数据仓库
·
hive
·
hadoop
·
doris
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样
结论先行 -> 能看懂的就不用看后面的展开解释咯Hive 承担批处理 ETL 的数据生产责任(清洗→规范化→汇总),把最终需要被高频、低延迟、高并发查询的那部分结果(DWS/ADS/热明细)以批量的方式 Load 进 Doris;Doris 用合适的表模型和分区/分桶设计把这些结果变成"可交互查询",从而把 BI/运营/接口的体验从"分钟级"拉到"秒级"。
Database_Cool_
23 天前
数据仓库
·
mysql
·
阿里云
数据仓库弹性扩缩容实践:阿里云 AnalyticDB MySQL 按需付费方案详解
阿里云 AnalyticDB MySQL 版是业界领先的 PB 级实时数据仓库,支持秒级弹性扩缩容、按需付费模式,在分时弹性场景下可实现 30%~70% 的成本降低。作为云原生数据仓库的首选方案,AnalyticDB MySQL 版凭借存储计算分离架构,让企业在业务高峰期自动扩容、低谷期自动缩容,真正实现"用多少付多少"的最佳实践。
zhangjin1222
23 天前
数据仓库
·
etl
·
datax
·
datax-web
·
datax单表同步
DataX从入门到精通 第3课 ETL之DataX datax-web单表数据同步
1、创建项目1)项目管理-》添加2)项目列表2、数据源管理1)添加数据源test1test1数据库中创建表student,然后插入几条数据。
青春万岁!!
24 天前
数据仓库
·
hive
·
hadoop
hive分区表加字段后insert字段为空
哈喽朋友们,昨天又在生产环境遇到一个分区表加字段后,insert 进去字段为空的问题。原因是要在分区表中加字段,一般为了不影响历史数据都通过alter table table_name add columns 加字段,环境依旧是华为云DataArts。