技术栈
数据仓库
codebat_raymond
9 小时前
数据仓库
·
数据库架构
Delta Lake 解析:架构、数据处理流程与最佳实践
Delta Lake 是一个基于 Apache Spark 的开源存储层,主要解决传统数据湖(Data Lake)缺乏 ACID 事务、数据一致性和性能优化的问题,使大数据处理更加可靠、高效。从本质上讲,它让数据湖具备了数据仓库的结构化管理能力,同时保留了数据湖的灵活性。
镜舟科技
14 小时前
数据仓库
·
湖仓一体
·
分析型数据库
·
存算分离
·
starrocks 主键
·
主键模型
·
实时数据分析
StarRocks 主键(Primary Key)深度解析
StarRocks 是一款高性能分析型数据库,专为海量数据的实时分析而设计。作为新一代湖仓(Lakehouse)加速引擎,StarRocks 融合了 MPP 架构和列式存储引擎的优势,能够支持亿级数据秒级查询响应。
小技工丨
15 小时前
大数据
·
数据仓库
·
hive
·
hadoop
·
sql
Hive高频SQL及典型应用场景总结
场景 日志表按年月分区,提升查询效率(如按日期过滤时仅扫描特定分区)。高频操作:窗口函数、行列转换、条件聚合 典型场景:日志分析、用户分层、报表生成 优化重点:分区/分桶设计、避免全表扫描、合理使用存储格式(ORC/Parquet)
Faith_xzc
2 天前
大数据
·
数据库
·
数据仓库
·
架构
·
开源
存算分离是否真的有必要?从架构之争到 Doris 实战解析
在数据库与大数据领域,“存算一体” 与 “存算分离” 的架构之争从未停歇。有人质疑:“存算分离真的有必要吗?本地盘性能难道不够?” 答案并非非黑即白 —— 技术选型的关键,在于业务场景与资源诉求的精准匹配。本文以 Apache Doris 为例,为你拆解两种架构的本质差异、优劣对比及落地场景。
weixin_30777913
2 天前
服务器
·
数据仓库
·
microsoft
·
azure
Azure云平台数据库迁移方案全解析
在Azure云平台上进行数据库迁移项目时,一个全面、系统的迁移方案至关重要,它涵盖从前期规划到后期优化的各个环节,以确保业务平稳过渡。以下将详细阐述Azure数据库迁移方案。
半部论语
2 天前
数据仓库
·
big data
StarRocks vs Doris:深度剖析与选型分析
在大数据技术蓬勃发展的当下,企业对于高效的数据分析工具的需求日益增长。StarRocks 和 Doris 作为两款优秀的 MPP(大规模并行处理)数据库,在数据仓库和数据分析领域备受关注。本文将从多个维度对 StarRocks 和 Doris 进行深度剖析,旨在为企业技术选型提供全面、客观的参考依据。
难以触及的高度
2 天前
数据仓库
·
hive
·
hadoop
Hive配置JDBC连接
Hive搭建完成后 可以配置JDBC连接1.修改Hadoop配置文件2.启动Hive的JDBC连接
派可数据BI可视化
3 天前
大数据
·
数据仓库
·
信息可视化
·
数据分析
·
商业智能bi
什么是 BA ?BA怎么样?BA和BI是什么关系?
前几天有朋友在评论区提到了BA这个角色,具体是干什么的,我大概来说一下。什么是BABA 英文的全称是Business Analyst,从字面上意思就是商业分析师,做过商业智能BI项目的应该比较了解。实际上以我个人的经验,BA 的角色更像是一个带有技术背景的业务需求分析师、产品经理的融合体。
StarRocks_labs
3 天前
数据仓库
·
架构
·
数据分析
·
云计算
·
湖仓一体
vivo 湖仓架构的性能提升之旅
作者:郭小龙 vivo互联网 大数据高级研发工程师导读:本文整理自 vivo互联网 大数据高级研发工程师 郭小龙 在 StarRocks 年度峰会上的分享,聚焦 vivo 大数据多维分析面临的挑战、StarRocks 落地方案及应用收益。
wangzhongyudie
3 天前
数据仓库
·
hive
·
hadoop
Hive的分区分桶和数据抽样
分区表的本质就是对应HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive表的一个分区就是一个子目录。把一个大的数据集根据业务需要切分成一个个小的数据集,在查询时通过查询条件选择所需要的指定的分区,这样避免去扫描所有数据文件,大大提升查询的效率。
weixin_30777913
3 天前
数据仓库
·
microsoft
·
性能优化
·
azure
·
etl
稳定运行的以Microsoft Azure Cosmos DB数据库为数据源和目标的ETL性能变差时提高性能方法和步骤
在以 Microsoft Azure Cosmos DB 数据库为数据源和目标的 ETL (提取、转换、加载) 过程中,性能变差时,可能有多种原因。
梦里1米8
3 天前
数据仓库
·
etl
什么是ETL
ETL(Extract-Transform-Load)是一种数据集成过程,常用于数据仓库、数据分析、数据清洗等场景。ETL的主要目标是从不同数据源提取数据,进行清洗、转换,然后加载到目标数据仓库或分析系统。
RestCloud
4 天前
数据仓库
·
etl
·
数字化转型
·
数据集成
数据仓库是什么,跟数据集成有什么关系
在当今数字化时代,数据已成为企业决策的重要依据。数据仓库作为企业数据管理的核心组件,其重要性不言而喻。那么,数据仓库到底是什么?它与数据集成又有着怎样的关系呢?本文将深入探讨这些问题。
随缘而动,随遇而安
4 天前
大数据
·
数据库
·
数据仓库
·
数据库开发
·
数据库架构
第二十九篇 数据仓库与商务智能:技术演进与前沿趋势深度解析
声明:文章内容仅供参考,需仔细甄别。文中技术名称属相关方商标,仅作技术描述;代码示例为交流学习用途,部分参考开源文档(Apache 2.0/GPLv3);案例数据已脱敏,技术推荐保持中立;法规解读仅供参考,请以《网络安全法》《数据安全法》官方解释为准。
大博士.J
4 天前
数据仓库
·
人工智能
·
python
·
mysql
·
adb
MySQL实现全量同步和增量同步到SQL Server或其他关系型库
在将MySQL中的两张表同步到SQL Server的过程中,全量同步和增量同步各有其优缺点。全量同步简单直接但可能耗时较长且资源消耗大,而增量同步则更加高效但需要额外的逻辑来处理数据的变更。以下是对这两种同步方式的详细解释及代码示例的完善。
ui设计前端开发老司机
4 天前
大数据
·
数据仓库
·
etl
在大数据开发中ETL是指什么?
hello宝子们...我们是艾斯视觉擅长ui设计和前端数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!
Sinder_小德
5 天前
数据仓库
·
etl
(超详细) ETL工具之Kettle
原本想上传安装包和数据连接包的,上传不了,有意可联系主页扣扣。并行处理机制:Kettle的转换步骤默认以并发方式执行,所有步骤同时启动,通过行集缓存实现数据流处理,这种机制既能高效利用系统资源,又避免内存溢出,尤其适合大数据量的ETL场景,比如,多个步骤可同时处理不同的数据分片,提升整体的吞吐量。
涤生大数据
5 天前
数据仓库
·
数据挖掘
·
数据分析
·
doris
·
数据湖
·
数字化转型
·
湖仓一体
Doris 湖仓一体:数据分析新范式
在大数据的浪潮里,企业数据量呈爆发式增长,数据处理和分析的需求也变得越来越复杂。传统的数据库、数据仓库和数据湖各管一摊,彼此割裂,导致数据利用效率大打折扣。这个时候,湖仓一体的概念横空出世,像是一场 及时雨,为企业的数据管理带来了全新的可能性。今天,我们就来聊聊 基于 Doris 的湖仓一体,看看它到底是怎么解决数据管理的难题,让企业玩转大数据的!
派可数据BI可视化
6 天前
数据仓库
《商业智能(BI)的演进:从数据仓库到智能决策》
01、什么是商业智能BI?商业智能BI - 派可数据商业智能BI可视化分析平台首先要了解什么是商业智能BI( Business Intelligence )?百度商业智能BI有很多很多官方的定义,各种解释,实际上从这么多年的经验出发,对商业智能BI的定义我认为不需要弄得很复杂,就三条:
随缘而动,随遇而安
6 天前
大数据
·
数据仓库
·
sql
·
数据库架构
第二十七篇 数据仓库与维度建模指南:从理论到实战的进阶之路
声明:文章内容仅供参考,需仔细甄别。文中技术名称属相关方商标,仅作技术描述;代码示例为交流学习用途,部分参考开源文档(Apache 2.0/GPLv3);案例数据已脱敏,技术推荐保持中立;法规解读仅供参考,请以《网络安全法》《数据安全法》官方解释为准。