技术栈
hive
大鳥
9 小时前
hive
·
hadoop
·
spark
企业级 Hive on Spark 开发规范
本文档基于 Hive 3.x 与 Spark 3.x 版本制定,旨在规范企业级数据仓库建设中 Hive on Spark 的开发流程、数据模型设计、SQL 编写、作业调度等核心环节,实现数据开发的标准化、高效化、可维护性,保障数据质量与作业稳定运行。本规范适用于企业内所有基于 Hive on Spark 进行数据仓库建设、数据开发及数据分析的相关人员。
Hello.Reader
18 小时前
大数据
·
hive
·
flink
Flink × Hive HiveCatalog 一键接入元数据,Flink 直接读写 Hive 表
你可以把 Flink 的表定义存到 Hive Metastore 里,例如把 Kafka / Elasticsearch / JDBC 表注册进 HMS,后续任何 Flink SQL 会话只要 USE CATALOG 就能直接用,不用每次 CREATE TABLE。
Hello.Reader
19 小时前
大数据
·
hive
·
flink
Flink + Hive Functions HiveModule、原生聚合加速、复用 Hive UDF/UDTF/UDAF
HiveModule 会把 Hive 内置函数注册成 Flink 的 system (built-in) functions。你在 Flink SQL/Table API 里能直接调用 Hive 的函数(包含大量字符串、日期、数学、条件判断等)。
Hello.Reader
21 小时前
大数据
·
hive
·
flink
Flink Hive 把 Hive 表变成“可流式消费”的数仓底座
核心就两件事:1)读 Hive:既能一次性读(bounded),也能像流一样追新增(unbounded / streaming read) 2)写 Hive:批写支持 append/overwrite;流写支持持续写入并按策略提交分区(让下游逐步可见)
归去来?
1 天前
大数据
·
数据仓库
·
hive
·
python
·
网络协议
·
5g
·
https
记录一次从https接口提取25G大文件csv并落表的经历
某日下班后,领导临时分配了一个任务,有一个https接口提供的csv格式数据,量级比较大,需要提取并落表,解析成结构化的数据,用于做一些数据分析。 业务方提供了几天的接口文件url,格式如下:https://*****file.csv,直接点击即进入浏览器下载状态,一个文件量级达二十多G,预计需要两个小时下载完成; 同时,业务方也提供了一些清洗及指标统计规则,但未提供数据原始字段格式。
無森~
2 天前
hive
·
hadoop
·
sql
Hive 函数
查看系统自带函数函数说明round(double a, int d)小数部分d位之后数字四舍五入,例如round(21.263,2),返回21.26
無森~
2 天前
hive
·
hadoop
·
sql
Hive核心SQL(基础)
目录DDL(数据定义语言)Hive 数据类型基本数据类型复合数据类型数据库实例操作创建数据库查看数据库实例
yumgpkpm
2 天前
大数据
·
hive
·
hadoop
·
数据挖掘
·
flink
·
spark
·
cloudera
银行智能数据平台在Cloudera CDH6\CDP 7\CMP 7平台下的具体使用配置流程
下载地址:https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is
查士丁尼·绵
3 天前
hive
·
hdfs
·
zookeeper
·
spark
·
hbase
·
yarn
·
galera
hadoop集群存算分离
管理 node1:Active NameNode + Active ResourceManager备用管理 node2:Standby NameNode + Standby ResourceManager
默默在路上
4 天前
hive
·
hadoop
·
apache
apache-hive-3.1.3 show databases;报错
在部署hive时,出现了一些问题,比如hadoop版本不匹配或者jdk版本过高等等,特此进行整理。以下版本可以进行匹配:
走遍西兰花.jpg
4 天前
hive
·
oracle
·
gaussdb
Oracle,hive,gaussdb的区别
oraclehive高斯ORCLcreate database 数据库名;create database test;
梦痕长情
5 天前
hive
记一次hiveSQL 查询无数据,String类型的字段自动转化为int类型的经历和解决方案
背景: 我有一张hive表:销售订单表,名为:sale_order_info. 里面有字段:销售订单号sale_order(string类型),回款金额back_amt(decimal)。这个表是业务部门(销售部门)填写的。我是经过这个表收集数据到数据中台中,然后进行关联,反馈给BI报表。
weixin_46244623
5 天前
运维
·
hive
·
hadoop
Hadoop / YARN / Hive 运维操作教程
本文整理了一份完整的 Hadoop、YARN、Hive 运维操作手册,包括配置同步、集群启动、服务管理、任务监控等常用运维操作。适用于多节点集群的管理和日常维护。
無森~
6 天前
数据仓库
·
hive
·
hadoop
Hive概述
对比项Hive关系型数据库查询语句HQLSQL数据存储HDFSLocal FS or RawDevice
無森~
6 天前
数据仓库
·
hive
·
hadoop
Hive下载与安装
Hive中metastore (元数据存储)的三种模式:a)内嵌Derby模式b)直连数据库模式c)远程服务器模式
大鳥
6 天前
hive
·
sql
·
spark
Hive on Spark SQL 性能优化权威指南
本指南聚焦Hive on Spark架构下SQL性能优化的全流程,从问题定位、表设计、SQL语法、参数配置到典型场景实践,系统梳理优化方法论与实操方案。内容覆盖数据倾斜、大表批处理、多表关联等核心场景,提供可直接落地的代码示例、参数模板与效果验证方法,适用于大数据开发工程师、数据库运维人员及相关技术学习者。
無森~
6 天前
数据仓库
·
hive
·
hadoop
Hive输出表信息中文乱码解决方案
输出表信息的时候,如果含有中文可能会出现乱码。检查hive_remote数据库创建,使用的utf8:检查表COLUMNS_V2的创建语句,发现表和COMMENT使用的latin1编码格式,所以出现中文乱码:
B站计算机毕业设计超人
7 天前
大数据
·
hive
·
hadoop
·
python
·
毕业设计
·
知识图谱
·
课程设计
计算机毕业设计Python+百度千问大模型微博舆情分析预测 微博情感分析可视化 大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片!
王九思
7 天前
大数据
·
hive
·
hadoop
大数据查询工具Hive介绍
Hive是基于Hadoop的数据仓库工具,由Facebook开发并开源,提供了类似SQL的查询语言HiveQL,允许用户通过熟悉的SQL语法处理存储在分布式文件系统(如HDFS)中的大规模数据。Hive将SQL查询转换为MapReduce、Tez计算任务,极大简化了大数据分析的门槛。
王九思
7 天前
数据仓库
·
hive
·
hadoop
Hive Hook 机制
Hive Hook 是 Apache Hive 提供的一种扩展机制,允许开发者在 Hive 执行的特定阶段插入自定义逻辑。通过 Hook,可以在查询解析、优化、执行等关键节点进行拦截和干预,实现审计、监控、安全控制等功能。