数据仓库

`林中水滴`12 小时前
数据仓库
Iceberg vs HudiIceberg 是 Netflix(美国网飞)公司为了解决数据存储和计算引擎之间的适配的问题(即 Hive 在云上的痛点)开发的,2018年11月16日进入Apache孵化器,2020 年5月19日从孵化器毕业,成为 Apache 的顶级项目。
奥利文儿13 小时前
大数据·数据仓库·人工智能·数据库开发·etl·虚拟机·etl工程师
【虚拟机】Ubuntu24安装Miniconda3全记录:避坑指南与实践引言 最近在Ubuntu 24服务器上部署数据分析环境时,经历了一次完整的Miniconda3安装过程。从终端交互日志来看,整个过程虽然最终成功,但其中不乏值得深思的技术细节和潜在陷阱。本文将深度剖析一次典型的Miniconda安装日志,提取其中的重点、难点与亮点,为同行提供一份详实的参考指南。 📊 安装日志全景扫描 本次安装的基本信息: 安装包:Miniconda3-py313_25.3.1-1-Linux-x86_64.sh 下载方式(清华大学开源软件镜像站):https://mirrors.tun
飞Link14 小时前
大数据·linux·数据仓库·hive·hadoop
【Hive】Linux(CentOS7)下安装Hive教程用户:root密码:123456添加以下内容分发文件下载地址:http://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
菜鸟冲锋号17 小时前
大数据·数据仓库·人工智能·大模型
适配AI大模型非结构化数据需求:数据仓库的核心改造方向传统数据仓库以结构化数据(如数据库表、Excel表格)为核心处理对象,聚焦于数据的整合、建模与结构化分析,服务于企业常规报表与决策需求。而AI大模型(尤其是多模态大模型)的训练与推理,高度依赖文本、图像、音频、视频等非结构化数据——这类数据占比已超企业数据总量的80%,且具备格式异构、语义复杂、价值密度低等特点。面对这一需求,数据仓库不能再局限于“结构化数据中枢”的定位,需从架构设计、技术选型、数据治理、服务模式等多方面进行系统性改造,核心目标是构建“结构化+非结构化”一体化的数据支撑体系,为AI大模型提
老徐电商数据笔记1 天前
数据仓库·人工智能
数据仓库工程师在AI时代的走向探究关于数据仓库工程师未来10年的走向,核心结论是:岗位不会消失,但会发生根本性转型。 其价值将从“数据的搬运工与仓库建造者”转向“数据价值的架构师与赋能者”。
老徐电商数据笔记2 天前
大数据·数据仓库·技术面试·数据存储格式
电商数仓存储格式(Textfile/Orc/Parquet)深度解析:五大实战方案与选型指南存储格式的选择,决定了数据仓库的性能天花板和成本下限。本文基于真实电商场景,提供从入门到精通的完整选型策略。
潘达斯奈基~2 天前
大数据·数据仓库
数仓建模1-核心框架先给一个结论版的总览,方便在心里“挂住”后续的所有细节:数仓建模本质就做三件事:经典理论流派:技术架构(以离线数仓为例):
ha_lydms4 天前
大数据·数据仓库·阿里云·dataworks·maxcompute·odps·analyticdb
AnalyticDB导入MaxCompute数据的几种方式云原生数据仓库 AnalyticDB MySQL 版(以下简称AnalyticDB for MySQL)是全托管的PB级实时数仓,支持毫秒级数据更新和亚秒级查询响应,高度兼容MySQL协议。
莫叫石榴姐6 天前
数据仓库·json
Doris为2.1版本,但json_each不可以用解决方法Doris 2.1 版本(原生支持json_each函数),但该函数无法使用,核心原因是FE 节点的功能开关未开启(Doris 2.x 部分 JSON 高级函数默认关闭,需手动配置启用),而非版本不兼容。
老徐电商数据笔记7 天前
大数据·数据仓库·重构·数据中台·用户画像·技术面试
技术复盘第八篇:从“数据烟囱”到“能力引擎”:中型电商数仓重构实战手册当CTO要求在三个月内让数据“可用”,而业务方每天催着要十个新报表时,这份战术手册是你唯一能依靠的作战指南。
青木川崎7 天前
数据仓库·hive·hadoop
hive实战统计硅谷影音视频网站的常规指标,各种 TopN 指标: –统计视频观看数 Top10 –统计视频类别热度 Top10 –统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数 –统计视频观看数 Top50 所关联视频的所属类别排序 –统计每个类别中的视频热度 Top10,以 Music 为例 –统计每个类别视频观看数 Top10 –统计上传视频最多的用户 Top10 以及他们上传的视频观看次数在前 20 的视频
是阿威啊7 天前
linux·数据仓库·hive·hadoop·分布式
【第三站】本地虚拟机部署hive集群mysql仅在master节点部署, 其他节点通过jdbc链接service mysqld status
和光同尘20237 天前
linux·运维·数据库·数据仓库·mysql·centos·database
一文讲透CentOS下安装部署使用MYSQL如果没有安装则执行如果没有安装则执行可以在官网下载安装包或者在服务器直接使用wget下载。注:本文安装包上传到了 /usr/local/ 目录下
云器科技8 天前
数据仓库·湖仓一体·lakehouse·无需 cdp
无需CDP:基于现有数据仓库构建高效用户画像系统作者:刘俊用户画像是大数据应用的重要场景。通过多维度数据建模,构建用户行为并转化为标签,建立完整的数字身份图谱。通过系统分析大量用户行为数据,给每个用户打上多样的标签。这些标签包括人口特征和兴趣爱好等多方面信息。用户画像帮助企业做个性化推荐和精准营销,已经成为企业数字化运营的基础工具。
xerthwis8 天前
大数据·数据仓库·人工智能·hdfs·数据库开发·数据库架构
HDFS:那座正在云化与解构的“古老高墙”思维导图在这:https://www.anygraphanywhere.com/automap/mindmap.html?link=1766463059271-1766463059271
ghgxm5209 天前
开发语言·数据仓库·笔记·excel·数据库开发
EXCEL使用VBA代码实现按条件查询数据库--简单实用工作中遇到很多场景需要从应用系统的数据库查询各种数据,方法有很多如:免费的POWER QUERY,收费的帆软等报表软件。 如果你没有报表平台也没有开发基础,可以使用EXCEL的VBA+ADO链接数据库,编写SQL就能实现动态的参数查询,简单实用。
喻师傅10 天前
数据仓库·hive·hadoop
Hive 中 NULL 值在逻辑判断中的“陷阱”(踩坑复盘)在 Hive 中,NULL 不是“空值”,而是一种特殊的“未知”状态。它不会等于任何值,也不会不等于任何值——包括它自己。如果你忽略了这一点,即使逻辑看起来正确,结果也可能悄无声息地出错。
涤生大数据10 天前
大数据·数据仓库·flink·大数据开发·flink cdc·数据开发·实时数据
放弃Canal后,我们用Flink CDC实现了99.99%的数据一致性对数据的实时性要求越来越高。传统的离线数仓(T+1)已无法满足业务对秒级响应的需求,而实时数仓和数据湖(Data Lake)架构正成为主流。然而,如何将业务数据库中的变更数据(Insert/Update/Delete)低延迟、高可靠、无侵入地同步到下游系统,一直是构建实时链路的关键挑战。
jinxinyuuuus10 天前
数据仓库·人工智能
订阅指挥中心:数据可移植性、Schema设计与用户数据主权技术实践观察地址: 订阅指挥中心(Subscription Command Center)摘要: 在数据驱动的时代,用户的数据主权(Data Sovereignty)和可移植性(Portability)是衡量应用价值的关键指标。本文将探讨在订阅管理这类个人财务应用中,如何通过设计一个健壮、可扩展的数据 Schema,并结合前端的**导入/导出(Import/Export)**功能,实现用户对自身数据的完全控制。我们将分析 JSON Schema 在保证数据完整性上的作用,以及 Web API 如何在不依赖
老徐电商数据笔记11 天前
大数据·数据仓库·技术面试
技术复盘第四篇:Kimball维度建模在电商场景的实战应用基于百果园会员域、美的跨境供应链等千万级数据项目实践,深入解析Kimball维度建模在复杂业务场景下的落地策略