数据仓库

盛源_013 天前
数据仓库·hive·hadoop
hive表视图分区字段过滤逻辑不宜复杂, 否则报错如下:Caught Hive MetaException attempting to get partition metadata by filter from Hive
SelectDB技术团队3 天前
数据库·数据仓库·人工智能·云原生·实时分析
Apache Doris + SelectDB:定义 AI 时代,实时分析的三大范式我们正处在一个数据与智能深度耦合的时代。当生成式 AI 重构着人机交互的边界,当大模型开始渗透每一个业务环节,一个根本性问题浮出水面:AI 究竟能跑多快、多准,这取决于它能多快、多准地获取实时数据。
xiaogai_gai3 天前
java·数据仓库·etl
ETL数据流程实战:轻易云平台整合金蝶云星空API接口在企业信息化的过程中,系统之间的数据对接与集成无疑是至关重要的一环。本篇文章将分享一个基于轻易云数据集成平台,将金蝶云星空中的“其他入库单(非外部代销)”数据高效、安全地集成到另一实例金蝶云星空中的技术案例。
SelectDB技术团队3 天前
数据库·数据仓库·人工智能·云原生·实时分析
OLAP 无需事务?Apache Doris 如何让实时分析兼具事务保障引言:Apache Doris 通过内置的轻量级强一致事务机制,解决了实时分析中数据重复与中间状态可见等挑战。支持 READ COMMITTED 隔离级别,通过 Label 机制确保数据不重不丢,并为复杂 ELT 提供原子性保障。Doris 打破了“OLAP 无需事务”的认知,是业界少数能同时实现实时、高性能与强一致性的分析引擎。
yumgpkpm3 天前
大数据·数据仓库·hive·hadoop·分布式·zookeeper·kafka
OpenClaw(养龙虾) +关于Hadoop hive的Skills(CLoudera CDH、CDP)#Cloudera CDH CDP根据最新的 OpenClaw 生态资料(截至 2026 年 3 月),OpenClaw 官方内置技能库中并没有直接名为 hadoop 或 hive 的专用技能。
网络工程小王4 天前
数据仓库·hive·hadoop
【大数据技术详解】——Hive 离线数仓分层(学习笔记)目录📊 Hive 离线数仓分层操作规范一、各层定义与职责二、示例业务:用户行为日志分析三、分层建表与 ETL 实现
Gain_chance4 天前
大数据·数据仓库·flume
Flume01:大数据日志收集与传输利器Apache Flume 是一个分布式、可靠、可用的系统,用于高效地收集、聚合和移动大量日志数据(或其他流式数据)从各种数据源到集中式数据存储(如 HDFS、HBase、Kafka 等)。它基于流式数据流架构,具有高可用、高可靠和可扩展的特点,通常用于大数据生态系统中作为日志收集和传输的组件。
王九思4 天前
数据仓库·hive·hadoop
Hive中的tzdata影响与使用tzdata是时区数据库的集合,包含全球时区规则和转换信息。在Hive中,tzdata用于处理时间戳的时区转换和格式化,确保跨时区数据的一致性。Hive默认使用UTC时区,但通过配置tzdata可以支持本地时区处理。
TaiKuLaHa4 天前
数据仓库·架构
数据仓库处理架构: lambda架构、kappa架构大数据处理架构详解:Lambda架构、Kappa架构、流批一体、Dataflow模型、实时数仓Lambda架构(Lambda Architecture)是由Twitter工程师南森·马茨(Nathan Marz)提出的大数据处理架构。
十月南城6 天前
数据库·数据仓库·hive·hadoop·spark
实时数据平台的价值链——数据采集、加工、存储、查询与消费的协同效应与ROI评估实时数据平台不是技术的简单堆砌,而是数据从产生到消费的全链路价值优化体系,每一步延迟的降低都在加速商业决策的脉搏
dinl_vin6 天前
数据仓库·hive·hadoop
Hive 深度解析:从原理到实践在大数据时代,Hive 作为 Hadoop 生态的数仓基石,依然是企业数据平台的核心组件。本文将从原理、SQL、优化到自定义函数,全面解析 Hive 的实战应用。
SeaTunnel7 天前
数据仓库·人工智能·apache·etl·seatunnel·数据同步
Apache SeaTunnel 2.3.13 版本前瞻:核心引擎变化和 AI ETL 趋势值得关注Apache SeaTunnel 2.3.13 即将发布。作为一个承上启下的重要版本,它在大幅增强核心引擎稳定性的同时,进一步补全了 CDC 场景的能力拼图,并向 AI ETL 领域迈出了关键一步。
Elieal7 天前
数据仓库·hive·hadoop
Tomcat面试表格预览查看代码浏览器发送HTTP请求Tomcat端口监听(Connector)Endpoint接收TCP连接,交给Processor解析HTTP协议
RestCloud7 天前
数据仓库·etl·hudi·数据同步·数据集成平台
ETL与数据湖Hudi的集成与操作随着企业数据规模的爆发式增长,传统的数据仓库架构已难以满足业务对实时性和灵活性的需求。Apache Hudi作为新一代流式数据湖框架,将流处理的能力引入数据湖,实现了批流一体的数据管理范式。
苛子7 天前
数据仓库·etl
实时数据同步工具横评:ETLCloud vs 帆软FDL,谁更适合企业数据平台?随着企业数据平台从 T+1报表时代走向 实时数据时代,实时数据同步能力逐渐成为数据平台建设的基础能力。过去企业更多依赖定时ETL任务,例如每天凌晨同步数据库数据到数仓;而现在,越来越多的场景需要分钟级甚至秒级的数据更新,比如实时订单分析、生产监控、库存变化预警、实时经营看板等。
德昂信息dataondemand7 天前
数据仓库·etl
ETL:解锁数据价值的 “黄金转换器你是否有过这样的职场困境?领导要季度销售分析,你在 Excel、业务系统和日志文件间反复切换,一下午整理的数据还因格式混乱被打回?如今企业海量数据如同散落在不同房间的拼图碎片,看似无序,实则暗藏商业密码。而 ETL正是拼成完整商业图景的 “魔法工具”,让沉睡的数据转化为驱动决策的 “黄金资产”。
ApacheSeaTunnel8 天前
数据库·数据仓库·数据湖·白鲸开源
(三)ODS/明细层落地设计要点:把数据接入层打造成“稳定可运维”的基础设施在现代数据仓库架构中,ODS(Operational Data Store,操作型数据存储层)承担着承接业务系统数据、保持最细粒度事实、并为后续数据建模提供稳定输入的关键角色。它既是数据进入数仓体系的第一站,也是数据质量与可追溯能力的第一道防线。
升职佳兴8 天前
数据仓库·hive·hadoop
告别 nohup:Hive Metastore 交给 systemd 托管的完整步骤在 Hadoop 3 + Hive 3 的学习环境中,Hive Metastore 通常是通过如下方式启动的:
SelectDB技术团队8 天前
数据仓库·人工智能·数据分析·agent·apache doris·mcp·易车
易车 × Apache Doris:构建湖仓一体新架构,加速 AI 业务融合实践导读:易车引入 Apache Doris 取得以下核心成果:数据的爆发式增长与业务对实时性的极致追求,驱动易车技术团队在实时湖仓建设上持续探索。目前易车已基于 Apache Doris + Paimon + Hive 构建了湖仓一体化数据平台,实现架构收敛统一:**逐步替换 Druid、Kudu、HBase、MongoDB、ClickHouse 等近 10 种引擎。**广泛应用于实时多维分析、用户画像及标签体系、BI 报表(实时报表、仪表盘)等核心场景。在此基础上,团队进一步探索 Apache Doris