技术栈
数据仓库
呆呆小金人
1 小时前
大数据
·
数据库
·
数据仓库
·
sql
·
数据库开发
·
etl
·
etl工程师
SQL入门: HAVING用法全解析
HAVING是标准 SQL 中用于筛选分组后结果的关键字,与WHERE筛选原始数据不同,HAVING专门作用于GROUP BY分组后的聚合结果,是实现 “分组统计后再过滤” 的核心工具。本文从基础概念到高级应用,全面解析HAVING的用法、与WHERE的区别及实战技巧。
一起喝芬达2010
3 小时前
数据仓库
·
人工智能
当数据仓库遇见AI:金融风控的「认知大脑」正在觉醒
2025年9月,某股份制银行凌晨2点15分,一笔看似普通的500万元企业贷款申请触发了「凤凰系统」的级联反应——数据仓库中的实时AI引擎在0.3秒内完成了对2.3TB历史数据、17个外部数据源、以及该企业在社交媒体舆情数据的综合分析,最终生成了一个包含87个风险维度的动态评估报告。更令人震撼的是,这份报告不仅预测了该企业的违约概率(0.73%),还给出了「建议批准但需增加担保条款」的具体风控策略。
jianmin0920
1 天前
数据仓库
Python高效数据分析从入门到实战的七个步骤
数据分析的第一步是获取并导入数据。Python的pandas库提供了灵活的数据读取功能,支持CSV、Excel、JSON等多种格式。使用read_csv()函数时可通过dtype参数指定数据类型,减少内存占用。对于大规模数据集,可选用chunksize参数进行分块读取,显著提升处理效率。
卡拉叽里呱啦
2 天前
大数据
·
数据仓库
Apache Iceberg介绍、原理与性能优化
首先我们要知道Iceberg是什么。简单地说,它是一种开放式的表格式,用于取代Hive表。那什么是表格式?表格式是数据湖屋这种OLAP系统的一个组件,用于将数据文件组织起来,对上层提供“表”这一抽象。或者说得更通俗一点,就是让我们能用在OLAP系统里用SQL执行数据定义和数据计算,类似功能的产品还有Hive, Hudi, Delta Lake等。
AI悦创|编程1v1
6 天前
数据仓库
·
正则表达式
·
数据挖掘
·
ai悦创编程一对一教学
·
python一对一辅导
·
python一对一教学
00-1-正则表达式学习心得:从入门到上瘾,再到克制
你好,我是 Cleland。受悦创的邀请,今天想和你聊聊我学习正则表达式的经历,以及一路走来的一些经验与反思。希望能帮你少走弯路,在学习正则的路上更轻松一些。
DashingGuy
6 天前
数据仓库
数仓各层级设计总结
ODS 全称为 Operational Data Store,是操作型数据存储层。它直接从源系统抽取数据,几乎不做任何加工,保留了数据的原始格式和内容。
DashingGuy
6 天前
数据仓库
从0-1建设数据仓库
基于onedata,纯个人理解,不完善的会慢慢补充业务调研有几个内容要做: 确定目标和范围、收集业务需求、梳理业务流程和数据流向、输出物
数据要素X
7 天前
大数据
·
数据仓库
·
数据治理
·
数据中台
【大数据实战】如何从0到1构建用户画像系统(案例+数据仓库+Airflow调度)
构建用户画像系统是一个涵盖数据架构、工程实现和业务应用的完整体系。其开发流程包含七个关键阶段:从目标解读、任务分解与需求调研,到需求场景明确、数据口径确认,再到特征选取与模型落表、线下验收测试,最终完成线上发布与效果追踪。
西岭千秋雪_
8 天前
数据仓库
·
人工智能
·
spring boot
·
ai编程
·
etl
RAG核心特性:ETL
本文为个人学习笔记整理,仅供交流参考,非专业教学资料,内容请自行甄别。ETL是RAG知识库的核心特性之一,包含了抽取,转换,加载三部分,其主要作用是对用户提供的知识库文档,进行处理,是存入向量数据库的前置操作。 文档在在Spring AI中的体现是document对象。不仅是文本,还包含其他类型的数据,以及元信息。ETL管道有三个主要组成部分:
孟意昶
9 天前
大数据
·
数据仓库
·
sql
·
ui
·
spark
·
etl
Spark专题-第三部分:性能监控与实战优化(1)-认识spark ui
Spark UI 是 Spark 提供的 Web 监控界面,用于实时查看应用程序的执行状态、性能指标和资源配置。
全栈派森
10 天前
数据仓库
·
python
·
程序人生
BI数据开发全攻略:数据仓库、模型搭建与指标处理
大家好,我是Petter Guo一位热爱探索的全栈工程师。在这里,我将分享个人的Technical essentials,带你玩转前端、后端到 DevOps 的硬核技术,解锁AI,助你打通技术任督二脉,成为真正的全能玩家!!
AI大数据智能洞察
10 天前
大数据
·
数据仓库
·
ai
大数据领域数据仓库的备份恢复方案优化
关键词:大数据、数据仓库、备份恢复方案、优化策略、数据安全摘要:在大数据时代,数据仓库作为企业数据存储和管理的核心,其数据的安全性和可用性至关重要。备份恢复方案是保障数据仓库数据安全的关键措施,但传统的备份恢复方案在面对大数据量和高并发的场景时,往往存在效率低下、成本高昂等问题。本文旨在深入探讨大数据领域数据仓库备份恢复方案的优化策略,通过对核心概念、算法原理、数学模型、实际案例等方面的详细分析,为企业提供一套全面、高效、可靠的备份恢复解决方案,以应对大数据环境下的数据安全挑战。
秦JaccLink
10 天前
数据仓库
·
hive
·
hadoop
Hive语句执行顺序详解
在大数据分析和处理的过程中,Hive作为一种数据仓库工具,提供了丰富的SQL-like查询语言。为了高效地处理和执行复杂的数据操作,理解Hive语句的执行顺序是至关重要的。本文将详细探讨Hive的语句执行顺序,包括其执行的各个阶段和具体步骤,并结合实例进行深入分析。
AI应用开发实战派
10 天前
大数据
·
数据仓库
·
ai
大数据领域数据仓库的自动化测试实践
关键词:大数据、数据仓库、自动化测试、测试实践、测试框架摘要:本文聚焦于大数据领域数据仓库的自动化测试实践。首先介绍了数据仓库自动化测试的背景,包括目的、预期读者等内容。接着详细解释了核心概念,如数据仓库、自动化测试等,并阐述了它们之间的关系。然后深入探讨了核心算法原理、数学模型,通过项目实战给出代码实际案例和详细解释。还介绍了数据仓库自动化测试的实际应用场景、相关工具和资源。最后分析了未来发展趋势与挑战,总结了主要内容并提出思考题,旨在帮助读者全面了解和掌握大数据领域数据仓库自动化测试的相关知识和实践方
AI算力网络与通信
10 天前
大数据
·
数据仓库
·
hive
·
ai
大数据领域 Hive 数据仓库搭建实战
![Hive数据仓库架构图]想象一下,你是一家中型电商企业的数据负责人。三年前,公司数据量仅为GB级别,使用传统关系型数据库就能轻松应对。但随着业务爆发式增长,现在每天产生的数据量已经达到TB级别,包括用户行为日志、交易记录、商品信息、物流数据等十几种数据源。
Leo.yuan
10 天前
大数据
·
数据仓库
·
数据挖掘
·
数据分析
·
spark
ODS 是什么?一文搞懂 ODS 与数据仓库区别
目录一、ODS是什么1.ODS的定义2.ODS的产生背景3.ODS的特点二、数据仓库是什么1.数据仓库的定义
boonya
10 天前
数据仓库
·
apache
Apache Doris 大数据仓库全面解析
这是一个对 Apache Doris 的全面了解指南。结合其官方网站和社区知识,我将从核心概念、架构、特性、应用场景以及快速上手等方面为您进行系统性的解析,另外还补充了Doris的竞争方案。Apache Doris 是一款面向实时分析场景的现代化数据仓库。它能够对海量实时数据进行极速分析。https://doris.apache.org/
isNotNullX
10 天前
大数据
·
数据仓库
·
人工智能
·
架构
·
etl
ETL详解:从核心流程到典型应用场景
目录一、ETL的核心流程1. Extract(抽取)2. Transform(转换)3. Load(加载)
SelectDB技术团队
10 天前
数据仓库
·
人工智能
·
数据分析
·
汽车
·
apache
岚图汽车 x Apache Doris : 海量车联网数据实时分析实践
岚图汽车作为东风汽车集团旗下高端智慧新能源品牌,自 2019 年创立以来,以用户型科技企业为定位,构建了覆盖 SUV、MPV、轿车三大品类的产品矩阵。依托国务院国资委管理,世界 500 强东风集团五十多年的造车积淀与全产业链资源,岚图汽车坚持自研,打造了 ESSA 原生智能电动架构、中央集中式 SOA 电子电气架构等核心技术,旗下岚图 FREE+、梦想家、追光等车型凭借高品质与技术创新,成为最快实现累计产量突破 20 万辆的央国企新能源高端品牌。2025 年连续月销量破万,产品出口覆盖超 40 个国家和地