数据仓库

没见过西瓜嘛3 小时前
数据仓库·笔记
数据仓库、数据湖与湖仓一体技术笔记
非极限码农6 小时前
数据仓库·hive·hadoop·etl
Hive数仓部署/分层/ETL脚本基础指南部署Hive数仓及分层基础指南部署和构建一个Hive数仓涉及多个步骤,包括设置Hadoop集群、配置Hive、设计数据仓库架构以及实现ETL(Extract, Transform, Load)过程。下面是一个详细的指南,帮助你完成这些步骤。
Dragon online1 天前
大数据·数据仓库·分布式·架构·spark·大数据架构·数仓架构
数据仓库深度探索系列:架构选择与体系构建大家好!我们是三倍镜团队,感谢持续关注!《数仓深度探索系列》今日更新啦,带你深入了解数据仓库架构。在上一篇《数据仓库深度探索系列 | 开篇:开启数仓建设新征程》中,我们详细探讨了数据仓库建设的重要性和必要性,从数据仓库的定义、特点、发展历程到其在企业中的关键作用,帮助大家建立了对数据仓库的全面认识。数据仓库不仅是数据存储工具,更是企业信息化战略的核心部分,能够整合数据、支持复杂查询和深度数据分析,推动企业的精细化运营和决策制定。
数据要素X1 天前
大数据·数据库·数据仓库·架构·数据库架构
【数据架构08】数字化转型架构篇✅ 11张高质量《数字化架构图》无论你是数据架构师、治理专家,还是数字化转型负责人,这份资料库都能为你提供体系化参考,高效解决“架构设计难、流程不清、平台搭建慢”的痛点!
陆水A3 天前
大数据·数据仓库·数据库开发·etl·etl工程师
数仓主题域划分在数据仓库建设中,对数据的使用,业务与数据团队存在着不同的痛点:业务团队:关注如何更快速,更准确,更便捷地获取想要的数据用来做各种决策和分析(例如:分析各机构的操作行为,用来标准化操作)
随心............3 天前
数据仓库·hive
hive专题面试总结UDF(User-Defined Function)是 Hive 中允许用户扩展内置函数的机制,通过编写自定义代码实现特定的数据处理逻辑。与 SQL 内置函数(如 SUM、SUBSTRING)不同,UDF 可以实现更灵活、复杂的功能。
isNotNullX3 天前
大数据·数据仓库·人工智能·数据分析·etl
主数据管理系统能代替数据中台吗?目录一、主数据管理系统≠数据中台1. 主数据管理系统:管的是 “不变的核心数据”2. 数据中台:管的是 “流动中的价值”
liliangcsdn6 天前
数据仓库·人工智能·prompt·llama
mac测试ollama llamaindexLlamaIndexs 将大语言模型和外部数据连接在一起的工具。大模型prompt有一个长度限制,当外部知识的内容超过这个长度,无法同时将有效信息传递给大模型,因此就诞生了 LlamaIndex。
晴天彩虹雨7 天前
大数据·运维·数据仓库·自动化·big data·etl
统一调度与编排:构建自动化数据驱动平台在现代大数据平台架构中,统一调度与编排不仅是数据处理自动化的“神经中枢”,更是实现数据资产高效流转与数据治理闭环的核心能力。随着数据规模增长、处理链路复杂化、数据时效性要求提高,传统“孤岛式调度”方式已难以为继,亟需构建统一、智能、可观测的调度编排体系。
Sirius Wu7 天前
数据仓库·hive·hadoop
Hive的窗口函数Hive的窗口函数(Window Functions)是其SQL功能的核心亮点之一,用于在分组数据上执行计算,同时保留原始表的行数(不压缩分组)。窗口函数特别适用于排名分析、趋势计算、移动统计等复杂场景,是处理时间序列数据和多维分析的利器。
isNotNullX8 天前
大数据·数据库·数据仓库·人工智能·制造
数据集成难在哪?制造企业该怎么做?目录一、为什么你的数据集成总失败?1.数据没有统一标准2.数据 “断点多”,打通成本高3.数据 “用不起来”,价值难落地
Sirius Wu8 天前
数据仓库·hive·hadoop·后端
一文说清楚HiveHive作为Apache Hadoop生态的核心数据仓库工具,其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。
天翼云开发者社区9 天前
数据仓库
离线数仓优化简述本文分享自天翼云开发者社区《离线数仓优化简述》,作者:徐****东1、业务层面计算量太大是不是必须的,是否可以减少参与计算的用户量或者时间跨度; 计算逻辑是否过于复杂,是否可以简化。
Leo.yuan9 天前
数据库·数据仓库·人工智能·算法·信息可视化
小白做投资测算,如何快速上手?目录一、新手常踩的坑1.光盯着利润看,忘了现金流才是根本2.只做假设,不管市场动态变化3.只看一个指标
摘星编程9 天前
数据仓库·erp系统·mcp协议·crm集成·企业数据集成
MCP与企业数据集成:ERP、CRM、数据仓库的统一接入🌟 Hello,我是摘星!🌈 在彩虹般绚烂的技术栈中,我是那个永不停歇的色彩收集者。🦋 每一个优化都是我培育的花朵,每一个特性都是我放飞的蝴蝶。
sheep85219 天前
数据仓库·hive·hadoop
HIVE实战处理(二十四)留存用户数因为用户活跃日期和留存的日期无法对齐所以搞了2级分区(dt,static_day)1)首先获得计算日D、根据要出的次X日留存,推算出前面的DT ,整体从活跃表里根据这些日期生成临时活跃表tmp1 2)分别把计算DT和前X日的DT进行匹配,按相差的天数进行匹配,如果匹配一直分别得到对应的次X日留存标识。 3)需要使用1个新的字段存储留存指标的的日期,比如20250701号的留存keep1_num只能等20250702号过完才能计算,那对应也是7.1号算留存日期,是指在DT=20250702的留存时间。
AI扶我青云志13 天前
数据仓库·hive·hadoop
Hive数据仓库工具下面是对 Apache Hive 的全面介绍,适用于理解其原理、架构、使用场景和与其他大数据组件的协作关系。
无级程序员14 天前
数据仓库·hive·hadoop
hive分区表临时加载日批数据文件源系统每日上传一个csv数据文件到数据中台指定目录,数据中台用hive表进行ETL工作。先建一个外部分区表:
淦暴尼14 天前
数据仓库·etl·原型模式
认识ETL流程:数据工程的基石ETL 指的是数据的抽取(Extract)、转换(Transform)和加载(Load)三个阶段:一个高效的 ETL 流程不仅要保证数据的准确性和一致性,还要兼顾性能、可维护性和扩展性。
天翼云开发者社区15 天前
大数据·数据仓库
数据治理的长效机制本文分享自天翼云开发者社区《数据治理的长效机制》,作者:徐****东数据治理遇到的困难数据治理是一个复杂而又富有挑战性的工作,需要各级管理人员和业务部门的积极参与和协作。虽然数据治理的目标“协同、降本、提效、创新”看似简单明了,但在实际操作中却会遇到各种各样的问题。