技术栈
数据仓库
派可数据BI可视化
5 小时前
大数据
·
数据仓库
·
数据分析
·
spark
·
商业智能bi
解读商业智能BI,数据仓库中的元数据
之前的文章讨论过数据分析、数据治理、数据仓库等等,即使是非业内人员从字面意思,也是可以了解一二的,但是,很多人对于元数据可能就比较陌生了。那么,今天我们就来聊一聊元数据管理。
老刘聊集成
7 小时前
数据仓库
·
etl
ETL 工具选型评测:2025 年 Top 5 工具优缺点对比(附评分表)
在IT 行业摸爬滚打二十多年,我亲眼见证着ETL 工具从开源到商业化,从自托管到全托管,选择的余地越来越大,也让人越来越难以抉择。
越来越无动于衷
13 小时前
数据仓库
·
hive
·
hadoop
Spring Boot 整合 Spring MVC:自动配置与扩展实践
Spring MVC 作为 Java Web 开发的核心框架,在传统 SSM 项目中需要大量 XML 配置(如 DispatcherServlet、视图解析器等)。而 Spring Boot 通过 "自动配置" 特性,简化了 Spring MVC 的整合过程,同时保留了灵活的扩展能力。本文将从自动配置原理、扩展方式、组件注册等方面,结合实例详解 Spring Boot 与 Spring MVC 的整合实践。
Raisy_
18 小时前
大数据
·
数据仓库
·
kafka
·
flume
05 ODS层(Operation Data Store)
ODS层在数据仓库中代表操作数据存储层(Operational Data Store),它是数据仓库架构的最底层,主要负责从源系统(如数据库、消息队列等)直接接入和存储原始数据,并进行初步清洗、格式转换和质量保证。
不辉放弃
1 天前
大数据
·
数据仓库
大数据仓库分层
大数据仓库分层是一套规范化数据流转、降低系统耦合、提升数据复用性与可维护性的设计方法论。其核心逻辑是将数据从 “原始接入” 到 “业务应用” 的全链路拆解为多个职责明确的层级,让每个层级专注于特定任务(如数据清洗、汇总计算、指标输出),最终实现数据资产的高效管理与价值释放。
君不见,青丝成雪
2 天前
大数据
·
数据仓库
·
flink
Flink双流join
Flink双流JOIN是指将两个独立的数据流按照关联条件进行实时匹配连接的操作,其核心挑战在于处理无限数据流和乱序事件15。与批处理JOIN不同,流式JOIN需要解决:
君不见,青丝成雪
2 天前
大数据
·
数据库
·
数据仓库
·
hive
·
sql
Hadoop技术栈(四)HIVE常用函数汇总
-- 当前前日期select current_date;select unix_timestamp();
SelectDB技术团队
3 天前
数据库
·
数据仓库
·
数据分析
·
apache doris
·
菜鸟技术
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文内容来自 Community Over Code Asia 2025 大会 (CommunityOverCode 是 Apache 软件基金会(ASF)的官方全球系列大会,其前身为 ApacheCon),OLAP & Data Analysis track 分享议题。本文主要介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,数据分析已经渗透到每个业务线的同学,每天在不同的数据分析报表、数据产品上查数和用数,OLAP 数据库在其中承担着重要作用。我们为什么选择 Doris,以及 Doris
程序员小羊!
3 天前
数据仓库
数据仓库&OLTP&OLAP&维度讲解
✨博客主页: https://blog.csdn.net/m0_63815035?type=blog💗《博客内容》:大数据、Java、测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识 📢博客专栏: https://blog.csdn.net/m0_63815035/category_11954877.html 📢欢迎点赞 👍 收藏 ⭐留言 📝 📢本文为学习笔记资料,如有侵权,请联系我删除,疏漏之处还请指正🙉 📢大厦之成,非一木之材也;大海之阔,
RestCloud
3 天前
数据库
·
数据仓库
·
etl
ETLCloud中的数据转化规则是什么意思?怎么执行
企业每天都需要处理大量来源不同,格式各异,结构复杂的数据。如何将这些数据高效地整合、清洗、转化为可用的信息呢?这已经成为了企业数据管理的核心挑战之一。
老刘聊集成
3 天前
数据仓库
·
etl
数据一致性校验:ETL保证信息准确无误的关键步骤
老刘至今对负责过的一个合作项目印象深刻,我们被外包给一个金融风控系统升级的项目,当时那银行的数据仓库出现了交易记录错乱的问题:清算模块显示的数据与源系统账簿不一致,导致对账延迟了4小时,我们负责后期数据的也只好干等着。
苛子
5 天前
数据仓库
·
etl
iPaaS、ETL、数据集成平台是什么?三者是什么关系?
iPaaS、ETL、数据集成平台是什么?三者是什么关系?很多大中型企业在做系统集成时,经常会遇到一个老大难问题:ERP、MES、CRM 三大核心系统之间的数据传输延迟动辄一两个小时。销售部门查不到实时库存,生产计划也总是跟不上最新的订单变化。
喂完待续
5 天前
大数据
·
数据仓库
·
hive
·
hadoop
·
sql
·
apache
【Tech Arch】Hive技术解析:大数据仓库的SQL桥梁
Hive作为Apache顶级项目,是Hadoop生态系统中最具影响力的SQL查询引擎,它解决了大数据处理与传统SQL技能之间的鸿沟。Hive的核心价值在于将类SQL查询语言HiveQL无缝转换为分布式计算框架MapReduce的任务,使数据分析师能够利用熟悉的SQL语法操作Hadoop中的海量数据,无需掌握复杂的MapReduce编程模型。本文将从Hive的基本概念、架构设计、工作原理到实际应用场景进行全面解析,帮助技术开发人员深入了解这一大数据处理工具。
喂完待续
6 天前
大数据
·
数据仓库
·
分布式
·
架构
·
apache
·
数据库架构
Apache Hudi:数据湖的实时革命
Apache Hudi是一个开源的数据湖存储格式和框架,它通过引入类似数据库的事务机制,解决了传统数据湖在实时更新、低延迟查询和增量消费方面的痛点。Hudi最初由Uber于2016年开发并应用于生产环境,2017年开源,2019年成为Apache孵化项目,2021年正式毕业为Apache顶级项目。作为数据湖领域的创新者,Hudi的核心价值在于实现了PB级数据湖上的低延迟ACID事务,使数据湖具备了接近数据库的实时性 ,同时保持了数据湖的灵活性和成本优势。
W.A委员会
8 天前
数据仓库
·
hive
·
hadoop
·
spring
SpringMVC
可以用于替代Servlet,也就是Servlet能做的SpringMVC都能做最新的spring控制层传参的时候如果参数是从url获取的,都要用参数注解注明参数名便于获取,区分各种类型的参数注解
TG_yunshuguoji
10 天前
数据仓库
·
云原生
·
华为云
·
数据库服务
华为云数据仓库服务核心优势指南
云原生在确保企业数字化转型中资源快速供给、按需使用的同时,支持敏捷的应用开发、稳定的交付运维,加速企业的敏捷创新,是企业数字化转型、智能化升级的必经之路。数据仓库服务GaussDB(DWS)是基于融合数据仓库GaussDB产品的云原生服务,今天跟大家谈谈华为云数据仓库服务五大核心优势。
典学长编程
10 天前
数据仓库
·
servlet
·
javaweb
JavaWeb从入门到精通!第二天!(Servlet)
1. Java ServletJava Servlet 是服务端的一个技术,是对服务器的一种小型可插拔的扩充,用于提高服务器性能,由于使用 Java 语言编写,所以可以跨平台,Servlet 的内部以多线程的方式提供服务,所以不必对每个请求都去创建一个 Servlet 来处理,利用多线程方式一个Servlet就可以给多个请求服务,效率非常高。
beijingliushao
12 天前
数据仓库
·
hive
·
apache
30-Hive SQL-DML-Load加载数据
小Tomkk
13 天前
大数据
·
数据仓库
·
spark
数据仓库命名规范
数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(Business Intelligence)的重要基础。因此建立、管理一个企业级的数据模型,应该遵循标准的命名和设计规范。
weixin_30777913
14 天前
开发语言
·
数据仓库
·
hive
·
c#
C#实现Hive到Snowflake数据迁移
配置文件示例 (App.config):程序功能说明:Hive DDL导出:数据导出(Parquet格式):