数仓

字节跳动数据平台2 个月前
大数据·数据库·云原生·数仓·click house
ByteHouse高性能向量检索实践——“以图搜图”使用 PQ、SQ 压缩,将向量的存储空间降低到原来的 1/4 或 1/3。例如,在精度要求不太高的情况下,将 float32 类型的数据压缩为 INT8 类型,从而将 4 字节的数据压缩为 1 字节,减少存储空间。
顽石九变5 个月前
大数据·数仓
【数仓】数仓建模理论及步骤,ER建模,维度建模,星形模型,雪花模型,数据分层数据仓库是一个面向主题、集成的、非易失的且随时间变化的数据集合。它主要用于组织、积累历史数据,并使用分析方法(如OLAP、数据分析)进行分析整理,以辅助决策,为管理者、企业系统提供数据支持、构建商业智能。
华为云开发者联盟6 个月前
数仓·华为云开发者联盟·华为云gaussdb(dws)
详解数仓对象设计中序列SEQUENCE原理与应用本文分享自华为云社区《GaussDB(DWS)对象设计之序列SEQUENCE原理与使用方法介绍》,作者:VV一笑。
顽石九变6 个月前
大数据·分布式·zookeeper·kafka·数仓
【数仓】kafka软件安装及集群配置准备3台虚拟机本例系统版本 CentOS-7.8,已安装jdk1.8关闭防火墙zookeeper 已安装,且已启动
顽石九变7 个月前
大数据·hadoop·分布式·数仓
【数仓】Hadoop集群配置常用参数说明Hadoop集群中,需要配置的文件主要包括四个配置核心Hadoop参数:配置HDFS参数:配置MapReduce参数(如果使用):
张飞的猪8 个月前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(24)ClickHouse集成mongodb表引擎详细解析MongoDB 引擎是只读表引擎,允许从远程 MongoDB 集合中读取数据(SELECT查询)。引擎只支持非嵌套的数据类型。不支持 INSERT 查询。
张飞的猪8 个月前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(22)ClickHouse集成HDFS表引擎详细解析这个引擎提供了与Apache Hadoop生态系统的集成,允许通过ClickHouse管理HDFS上的数据。这个引擎提供了Hadoop的特定功能。
张飞的猪8 个月前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(21)ClickHouse集成Kafka表引擎详细解析此引擎与Apache Kafka结合使用。Kafka 特性:老版Kafka集成表引擎参数格式:新版Kafka集成表引擎参数格式:
张飞的猪9 个月前
大数据·数据库·数据仓库·clickhouse·postgresql·etl·数仓·数据开发
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询.
张飞的猪9 个月前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(19)ClickHouse集成Hive表引擎详细解析Hive引擎允许对HDFS Hive表执行 SELECT 查询。目前它支持如下输入格式:-文本:只支持简单的标量列类型,除了 Binary
张飞的猪9 个月前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(18)ClickHouse集成ODBC表引擎详细解析ODBC集成表引擎使得ClickHouse可以通过ODBC方式连接到外部数据库.为了安全地实现 ODBC 连接,ClickHouse 使用了一个独立程序 clickhouse-odbc-bridge. 如果ODBC驱动程序是直接从 clickhouse-server中加载的,那么驱动问题可能会导致ClickHouse服务崩溃。 当有需要时,ClickHouse会自动启动 clickhouse-odbc-bridge。 ODBC桥梁程序与clickhouse-server来自相同的安装包.
张飞的猪9 个月前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
ClickHouse(17)ClickHouse集成JDBC表引擎详细解析允许CH通过JDBC连接到外部数据库。要实现JDBC连接,CH需要使用以后台进程运行的程序 clickhouse-jdbc-bridge。
张飞的猪10 个月前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(16)ClickHouse日志引擎Log详细解析这些引擎是为了需要写入许多小数据量(少于一百万行)的表的场景而开发的。这系列的引擎有:引擎:数据存储在磁盘上。
张飞的猪1 年前
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
ClickHouse(15)ClickHouse合并树MergeTree家族表引擎之GraphiteMergeTree详细解析GraphiteMergeTree该引擎用来对Graphite数据(图数据)进行瘦身及汇总。对于想使用ClickHouse来存储Graphite数据的开发者来说可能有用。
墨卿风竹1 年前
hadoop·spark·数仓
Spark有两种常见的提交方式:client 模式和 cluster 模式对机器 CPU 的影响,请参考以下说明Client 模式:在 Client 模式下,Spark Driver 运行在提交任务的客户端节点上(即运行 spark-submit 命令的机器)。Driver 负责执行应用程序的调度和监控,而 Executor 则在集群的工作节点上启动和运行任务。 在 Client 模式中,机器的 CPU 负担主要集中在 Driver 进程上,因为 Driver 负责调度和监控整个应用程序的运行。 Client 模式适用于开发、调试和交互式操作,对于小型数据集和快速迭代的任务有效。
upward3371 年前
大数据·linux·mysql·zookeeper·kafka·数仓·maxwel
尚硅谷大数据项目《在线教育之采集系统》笔记004视频地址:尚硅谷大数据项目《在线教育之采集系统》_哔哩哔哩_bilibili
墨卿风竹1 年前
大数据·hadoop·mysql·sqoop·数仓
用sqoop导出hive parquet 分区表到mysql确保你已经安装并配置好了Sqoop工具,并且可以连接到Hadoop集群和MySQL数据库。