数仓

PersistJiao11 天前
数仓·lambda架构·实时数据·离线数据
数仓报表需要支持历史数据和实时数据的整合的场景要如何处理结合你的需求,需要支持 历史数据和实时数据的整合,并支持按时间粒度查询(如今日、本周、本月),这是一个常见的实时+离线混合处理场景。以下是详细分析和推荐方案,帮助你设计一个高效的 ETL 流程来满足这些需求。
字节跳动数据平台5 个月前
大数据·数据库·云原生·数仓·click house
ByteHouse高性能向量检索实践——“以图搜图”使用 PQ、SQ 压缩,将向量的存储空间降低到原来的 1/4 或 1/3。例如,在精度要求不太高的情况下,将 float32 类型的数据压缩为 INT8 类型,从而将 4 字节的数据压缩为 1 字节,减少存储空间。
顽石九变8 个月前
大数据·数仓
【数仓】数仓建模理论及步骤,ER建模,维度建模,星形模型,雪花模型,数据分层数据仓库是一个面向主题、集成的、非易失的且随时间变化的数据集合。它主要用于组织、积累历史数据,并使用分析方法(如OLAP、数据分析)进行分析整理,以辅助决策,为管理者、企业系统提供数据支持、构建商业智能。
华为云开发者联盟9 个月前
数仓·华为云开发者联盟·华为云gaussdb(dws)
详解数仓对象设计中序列SEQUENCE原理与应用本文分享自华为云社区《GaussDB(DWS)对象设计之序列SEQUENCE原理与使用方法介绍》,作者:VV一笑。
顽石九变10 个月前
大数据·分布式·zookeeper·kafka·数仓
【数仓】kafka软件安装及集群配置准备3台虚拟机本例系统版本 CentOS-7.8,已安装jdk1.8关闭防火墙zookeeper 已安装,且已启动
顽石九变10 个月前
大数据·hadoop·分布式·数仓
【数仓】Hadoop集群配置常用参数说明Hadoop集群中,需要配置的文件主要包括四个配置核心Hadoop参数:配置HDFS参数:配置MapReduce参数(如果使用):
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(24)ClickHouse集成mongodb表引擎详细解析MongoDB 引擎是只读表引擎,允许从远程 MongoDB 集合中读取数据(SELECT查询)。引擎只支持非嵌套的数据类型。不支持 INSERT 查询。
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(22)ClickHouse集成HDFS表引擎详细解析这个引擎提供了与Apache Hadoop生态系统的集成,允许通过ClickHouse管理HDFS上的数据。这个引擎提供了Hadoop的特定功能。
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(21)ClickHouse集成Kafka表引擎详细解析此引擎与Apache Kafka结合使用。Kafka 特性:老版Kafka集成表引擎参数格式:新版Kafka集成表引擎参数格式:
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·postgresql·etl·数仓·数据开发
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询.
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(19)ClickHouse集成Hive表引擎详细解析Hive引擎允许对HDFS Hive表执行 SELECT 查询。目前它支持如下输入格式:-文本:只支持简单的标量列类型,除了 Binary
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(18)ClickHouse集成ODBC表引擎详细解析ODBC集成表引擎使得ClickHouse可以通过ODBC方式连接到外部数据库.为了安全地实现 ODBC 连接,ClickHouse 使用了一个独立程序 clickhouse-odbc-bridge. 如果ODBC驱动程序是直接从 clickhouse-server中加载的,那么驱动问题可能会导致ClickHouse服务崩溃。 当有需要时,ClickHouse会自动启动 clickhouse-odbc-bridge。 ODBC桥梁程序与clickhouse-server来自相同的安装包.
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(17)ClickHouse集成JDBC表引擎详细解析允许CH通过JDBC连接到外部数据库。要实现JDBC连接,CH需要使用以后台进程运行的程序 clickhouse-jdbc-bridge。
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(16)ClickHouse日志引擎Log详细解析这些引擎是为了需要写入许多小数据量(少于一百万行)的表的场景而开发的。这系列的引擎有:引擎:数据存储在磁盘上。
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(15)ClickHouse合并树MergeTree家族表引擎之GraphiteMergeTree详细解析GraphiteMergeTree该引擎用来对Graphite数据(图数据)进行瘦身及汇总。对于想使用ClickHouse来存储Graphite数据的开发者来说可能有用。
墨卿风竹1 年前
hadoop·spark·数仓
Spark有两种常见的提交方式:client 模式和 cluster 模式对机器 CPU 的影响,请参考以下说明Client 模式:在 Client 模式下,Spark Driver 运行在提交任务的客户端节点上(即运行 spark-submit 命令的机器)。Driver 负责执行应用程序的调度和监控,而 Executor 则在集群的工作节点上启动和运行任务。 在 Client 模式中,机器的 CPU 负担主要集中在 Driver 进程上,因为 Driver 负责调度和监控整个应用程序的运行。 Client 模式适用于开发、调试和交互式操作,对于小型数据集和快速迭代的任务有效。
upward3371 年前
大数据·linux·mysql·zookeeper·kafka·数仓·maxwel
尚硅谷大数据项目《在线教育之采集系统》笔记004视频地址:尚硅谷大数据项目《在线教育之采集系统》_哔哩哔哩_bilibili
墨卿风竹1 年前
大数据·hadoop·mysql·sqoop·数仓
用sqoop导出hive parquet 分区表到mysql确保你已经安装并配置好了Sqoop工具,并且可以连接到Hadoop集群和MySQL数据库。