数据仓库

Leo.yuan16 小时前
大数据·数据仓库·数据挖掘·数据分析·etl
数据清洗(ETL/ELT)原理与工具选择指南:企业数字化转型的核心引擎目录一、数据清洗(ETL/ELT)到底在干啥?1.揪出并处理异常值2.把缺失的数据补上(或处理好)3.数据转换与标准化
isNotNullX19 小时前
大数据·数据库·数据仓库·人工智能·数据分析
实时数仓和离线数仓还分不清楚?看完就懂了目录一、什么是离线数仓1. 批处理2. 数据时效性3. 高容量4. 数据存储二、什么是实时数仓1. 实时性
Leo.yuan1 天前
大数据·数据仓库·人工智能·数据挖掘·数据分析
数据分析师如何构建自己的底层逻辑?目录一、什么是“底层逻辑”?二、底层逻辑的核心是什么?三句话讲清楚1. 你到底在解决什么问题?2. 你有没有一套“框架”来组织你的分析思路?
梦想画家2 天前
数据仓库
数据仓库:企业数据管理的核心枢纽本文全面解析了数据仓库的概念、架构、应用场景及其在企业决策中的关键作用。我们将深入探讨数据仓库如何整合来自不同系统的数据,支持商业智能分析,并与数据湖、数据库等其他数据管理方案进行对比。通过实际用例和架构解析,帮助读者理解数据仓库如何赋能企业数据驱动决策,以及如何应对实施过程中的挑战。
梦想画家4 天前
数据仓库·代理键·缓慢维度变化
数据仓库中的代理键:概念、应用与实践指南在数据仓库设计中,代理键(Surrogate Key)是一种人工生成的唯一标识符,用于替代业务系统中的自然键(Natural Key)。本文深入探讨代理键的定义、核心特点、应用场景及其必要性,并通过具体示例代码展示如何在数据仓库中实现代理键。通过本文,您将理解代理键如何提升数据仓库的性能、灵活性和维护性,并掌握在实际项目中应用代理键的最佳实践。
zhuiQiuMX5 天前
数据仓库·sql·面试
脉脉maimai面试死亡日记刚刚结束,真的死得透透的。 前面八股啥的还要我下去了解分层,了解他们的意义。 先说后面俩SQL题吧我读题不仔细,没看到被关注者是数组!结果傻眼了,面试官问我爆炸函数,我只能说练习中没用到!
陈敬雷-充电了么-CEO兼CTO8 天前
大数据·数据库·数据仓库·数据挖掘·数据分析·etl·推荐算法
推荐算法系统系列>推荐数据仓库集市的ETL数据处理注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
isNotNullX8 天前
大数据·数据库·数据仓库·人工智能·数据分析
什么是数据分析?常见方法全解析目录一、数据分析概述1. 数据分析的定义2. 数据分析的重要性3. 数据分析的应用领域二、常见的数据分析方法
百度Geek说9 天前
数据仓库·重构·架构·spark·dubbo
搜索数据建设系列之数据架构重构主要概述百度搜索业务数据建设的创新实践,重点围绕宽表模型设计、计算引擎优化和新一代业务服务交付模式(图灵3.0开发模式)三大方向,解决了传统数仓在搜索场景下面临的诸多挑战,实现了搜索数据建设的高效、稳定、低成本;为百度搜索业务敏捷迭代奠定夯实基础。
A5资源网19 天前
前端·数据仓库·html·php
为WordPress 网站创建一个纯文本网站地图(Sitemap)这个脚本具体做了以下几件事:下面是代码使用方法
Cachel wood19 天前
大数据·数据库·数据仓库·分布式·计算机网络·spark
Spark教程1:Spark基础介绍Apache Spark 是一个开源的分布式大数据处理引擎,最初由加州大学伯克利分校 AMPLab 开发,2013 年捐赠给 Apache 软件基金会,如今已成为 Apache 顶级项目之一。它以速度快、易用性高、通用性强为核心特点,可用于大规模数据的处理、分析和机器学习等场景。
張萠飛19 天前
数据仓库·hive·hadoop
hive集群优化和治理常见的问题答案Hive 集群优化与治理常见问题答案合集A:A: 数据倾斜 是指某些Key的数据量远大于其他Key,导致任务执行缓慢甚至失败。
isNotNullX20 天前
大数据·数据库·数据仓库·信息可视化·etl
ETL连接器好用吗?如何实现ETL连接?目录一、ETL连接器的功能和优势1. 数据抽取能力2. 数据转换功能3. 数据加载功能4. 优势总结二、实现ETL连接的步骤
袋鼠云数栈20 天前
大数据·数据库·数据仓库·sql·数据开发·数据中台·袋鼠云
3节点开启大数据时代:EasyMR助力中小企业轻装上阵、国产转型在数字化浪潮中, 数据已成为中小企业竞争力的核心要素。然而,受限于预算、技术和运维能力,众多中小企业在建设大数据平台时常陷入“建不起、用不好”的困境。
巴基海贼王20 天前
大数据·数据仓库·算法
针对数据仓库方向的大数据算法工程师面试经验总结数据建模能力ETL流程与优化存储与计算引擎查询性能优化实时计算算法算法模型应用Hadoop/Spark生态
isNotNullX22 天前
大数据·数据库·数据仓库·oracle·数据治理
据字典是什么?和数据库、数据仓库有什么关系?目录一、数据字典的定义及作用1. 对于数据开发者2. 对于业务人员3. 对于数据管理员二、数据字典的组成
isNotNullX22 天前
大数据·数据仓库·数据治理·etl·元数据
一文辨析:数据仓库、数据湖、湖仓一体目录一、数据仓库1.结构化数据为主2.OLAP 优化3.强一致性保障4.SQL 优先接口二、数据湖1. SchemaonRead结构
liuze40823 天前
数据仓库·hive·hadoop
在VMware虚拟机集群中,完成Hive的安装部署Hive是分布式运行的框架还是单机运行的?Hive是单机工具,只需要部署在一台服务器即可。Hive虽然是单机的,但是它可以提交分布式运行的MapReduce程序运行。
雷神乐乐23 天前
数据仓库·hive·hadoop
Hive优化详细讲解目录一、表设计层面优化(一)合理设计表结构(二)使用分区表(三)使用分桶表(四)分区 + 分桶——先分区再分桶(优化范围查询)
Edingbrugh.南空23 天前
数据仓库·hive·hadoop
Hudi 与 Hive 集成在大数据领域,Hive 凭借其成熟的生态和类 SQL 的查询方式,成为数据仓库建设的常用工具;而 Hudi(Hadoop Upserts Deletes and Incrementals)则以高效的数据更新、删除及增量处理能力著称。将 Hudi 与 Hive 集成,能够让用户在享受 Hive 便捷查询的同时,利用 Hudi 强大的数据管理特性。本文将详细介绍二者集成的全流程,并重点标注易错点,助力开发者顺利完成集成工作。