数据仓库

zhuiQiuMX13 小时前
数据仓库·sql·面试
脉脉maimai面试死亡日记刚刚结束,真的死得透透的。 前面八股啥的还要我下去了解分层,了解他们的意义。 先说后面俩SQL题吧我读题不仔细,没看到被关注者是数组!结果傻眼了,面试官问我爆炸函数,我只能说练习中没用到!
陈敬雷-充电了么-CEO兼CTO4 天前
大数据·数据库·数据仓库·数据挖掘·数据分析·etl·推荐算法
推荐算法系统系列>推荐数据仓库集市的ETL数据处理注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
isNotNullX4 天前
大数据·数据库·数据仓库·人工智能·数据分析
什么是数据分析?常见方法全解析目录一、数据分析概述1. 数据分析的定义2. 数据分析的重要性3. 数据分析的应用领域二、常见的数据分析方法
百度Geek说5 天前
数据仓库·重构·架构·spark·dubbo
搜索数据建设系列之数据架构重构主要概述百度搜索业务数据建设的创新实践,重点围绕宽表模型设计、计算引擎优化和新一代业务服务交付模式(图灵3.0开发模式)三大方向,解决了传统数仓在搜索场景下面临的诸多挑战,实现了搜索数据建设的高效、稳定、低成本;为百度搜索业务敏捷迭代奠定夯实基础。
A5资源网15 天前
前端·数据仓库·html·php
为WordPress 网站创建一个纯文本网站地图(Sitemap)这个脚本具体做了以下几件事:下面是代码使用方法
Cachel wood15 天前
大数据·数据库·数据仓库·分布式·计算机网络·spark
Spark教程1:Spark基础介绍Apache Spark 是一个开源的分布式大数据处理引擎,最初由加州大学伯克利分校 AMPLab 开发,2013 年捐赠给 Apache 软件基金会,如今已成为 Apache 顶级项目之一。它以速度快、易用性高、通用性强为核心特点,可用于大规模数据的处理、分析和机器学习等场景。
張萠飛15 天前
数据仓库·hive·hadoop
hive集群优化和治理常见的问题答案Hive 集群优化与治理常见问题答案合集A:A: 数据倾斜 是指某些Key的数据量远大于其他Key,导致任务执行缓慢甚至失败。
isNotNullX16 天前
大数据·数据库·数据仓库·信息可视化·etl
ETL连接器好用吗?如何实现ETL连接?目录一、ETL连接器的功能和优势1. 数据抽取能力2. 数据转换功能3. 数据加载功能4. 优势总结二、实现ETL连接的步骤
袋鼠云数栈16 天前
大数据·数据库·数据仓库·sql·数据开发·数据中台·袋鼠云
3节点开启大数据时代:EasyMR助力中小企业轻装上阵、国产转型在数字化浪潮中, 数据已成为中小企业竞争力的核心要素。然而,受限于预算、技术和运维能力,众多中小企业在建设大数据平台时常陷入“建不起、用不好”的困境。
巴基海贼王16 天前
大数据·数据仓库·算法
针对数据仓库方向的大数据算法工程师面试经验总结数据建模能力ETL流程与优化存储与计算引擎查询性能优化实时计算算法算法模型应用Hadoop/Spark生态
isNotNullX18 天前
大数据·数据库·数据仓库·oracle·数据治理
据字典是什么?和数据库、数据仓库有什么关系?目录一、数据字典的定义及作用1. 对于数据开发者2. 对于业务人员3. 对于数据管理员二、数据字典的组成
isNotNullX18 天前
大数据·数据仓库·数据治理·etl·元数据
一文辨析:数据仓库、数据湖、湖仓一体目录一、数据仓库1.结构化数据为主2.OLAP 优化3.强一致性保障4.SQL 优先接口二、数据湖1. SchemaonRead结构
liuze40819 天前
数据仓库·hive·hadoop
在VMware虚拟机集群中,完成Hive的安装部署Hive是分布式运行的框架还是单机运行的?Hive是单机工具,只需要部署在一台服务器即可。Hive虽然是单机的,但是它可以提交分布式运行的MapReduce程序运行。
雷神乐乐19 天前
数据仓库·hive·hadoop
Hive优化详细讲解目录一、表设计层面优化(一)合理设计表结构(二)使用分区表(三)使用分桶表(四)分区 + 分桶——先分区再分桶(优化范围查询)
Edingbrugh.南空19 天前
数据仓库·hive·hadoop
Hudi 与 Hive 集成在大数据领域,Hive 凭借其成熟的生态和类 SQL 的查询方式,成为数据仓库建设的常用工具;而 Hudi(Hadoop Upserts Deletes and Incrementals)则以高效的数据更新、删除及增量处理能力著称。将 Hudi 与 Hive 集成,能够让用户在享受 Hive 便捷查询的同时,利用 Hudi 强大的数据管理特性。本文将详细介绍二者集成的全流程,并重点标注易错点,助力开发者顺利完成集成工作。
Edingbrugh.南空19 天前
数据仓库·hive·hadoop
Hive集成Paimon在大数据领域,数据存储与处理技术不断演进,各类数据管理工具层出不穷。Apache Hive作为经典的数据仓库工具,以其成熟的生态和强大的批处理能力,长期服务于海量数据的存储与分析;而Apache Paimon作为新兴的流式湖仓存储引擎,具备实时写入、高效查询和统一批流处理等特性,为数据管理带来了新的活力。将Hive与Paimon进行集成,能够充分融合两者优势,实现数据的高效存储、实时处理与灵活分析。本文将基于Paimon官方文档,深入讲解Hive集成Paimon的全流程,助力开发者在大数据场景中发挥两者协
limnade19 天前
数据仓库·云原生
云原生数仓 vs 传统数仓:深度拆解区别、优劣势及主流选型在数据驱动业务的当下,数据仓库作为企业数据中枢,承载着核心决策支持使命。随着云技术普及,云原生数仓与传统数仓的选型博弈愈发关键。本文从架构逻辑、核心能力到落地实践,深度拆解两者区别、优劣势,并梳理主流数仓方案,帮你精准锚定适配选型 。
isNotNullX20 天前
大数据·数据库·数据仓库·信息可视化·etl
kettle好用吗?相较于国产ETL工具有哪些优劣之处?目录一、Kettle是什么二、Kettle的优势1. 开源免费2. 社区资源丰富3. 跨平台兼容性好4. 操作简单
ThisIsClark20 天前
数据仓库·flink
什么是FlinkApache Flink是一个开源的分布式流处理框架,最初由柏林工业大学开发,后成为Apache软件基金会的顶级项目。它能够以高吞吐、低延迟的方式处理无界数据流(流处理)和有界数据集(批处理),实现了真正的流批一体处理范式。
雷神乐乐20 天前
数据仓库·hive·hadoop
Hive的分区表(静态分区、动态分区)、分桶表、四种排序方式和数据加载方式目录一、分区表(一)静态分区1.概念2.示例3.静态分区表练习(二)动态分区1.概念2.插入动态分区表之前:要开启动态分区和开启非严格模式