Hive SQL常见操作

Hive SQL 是基于 Hadoop 的数据仓库基础设施,用于提供数据查询和分析。下面介绍常用的 Hive SQL 语句,进行数据处理和分析。

1. 数据库操作

创建数据库 :CREATE DATABASE IF NOT EXISTS db_name;

使用数据库:USE db_name;

删除数据库:DROP DATABASE IF EXISTS db_name CASCADE;

2.表操作

创建表:

复制代码
CREATE TABLE IF NOT EXISTS table_name (
  col1 datatype,
  col2 datatype,
  col3 datatype
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

查看表结构:

复制代码
DESCRIBE table_name;

删除表:

DROP TABLE IF EXISTS table_name;

3.数据导入

从本地文件系统导入数据:

LOAD DATA LOCAL INPATH '/path/to/file' INTO TABLE table_name;

从 HDFS 导入数据:

LOAD DATA INPATH '/path/in/hdfs' INTO TABLE table_name;

4.数据查询

基本查询:SELECT col1, col2 FROM table_name WHERE condition;

分组查询:SELECT col1, COUNT(*) FROM table_name GROUP BY col1;

排序查询:SELECT * FROM table_name ORDER BY col1 DESC;

5.连接操作

内连接:SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

左连接:SELECT * FROM table1 LEFT JOIN table2 ON table1.id = table2.id;

6.窗口函数

计算累计和:

SELECT col1, SUM(col2) OVER (ORDER BY col1) AS running_total FROM table_name;

分组排名:

SELECT col1, col2, RANK() OVER (PARTITION BY col1 ORDER BY col2 DESC) AS rank FROM table_name;

7.分区表操作

创建分区表:

CREATE TABLE IF NOT EXISTS table_name ( col1 datatype, col2 datatype ) PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

添加分区:

ALTER TABLE table_name ADD PARTITION (dt='2023-01-01');

8.插入数据

INSERT INTO TABLE table_name VALUES (val1, val2, val3);

9、聚合函数

计算平均值:

SELECT AVG(col1) FROM table_name;

计算最大值:

SELECT MAX(col1) FROM table_name;

10.其他常用操作

创建视图:

CREATE VIEW view_name AS SELECT col1, col2 FROM table_name;

设置Hive参数:

SET hive.execution.engine=tez;

相关推荐
麦聪聊数据9 小时前
Web 原生架构如何重塑企业级数据库协作流?
数据库·sql·低代码·架构
qq_124987075310 小时前
基于Hadoop的信贷风险评估的数据可视化分析与预测系统的设计与实现(源码+论文+部署+安装)
大数据·人工智能·hadoop·分布式·信息可视化·毕业设计·计算机毕业设计
Apple_羊先森12 小时前
ORACLE数据库巡检SQL脚本--19、磁盘读次数最高的前5条SQL语句
数据库·sql·oracle
十月南城13 小时前
Hive与离线数仓方法论——分层建模、分区与桶的取舍与查询代价
数据仓库·hive·hadoop
l1t14 小时前
DeepSeek总结的PostgreSQL的GPT推理SQL移植到DuckDB的性能优化方法
sql·gpt·postgresql
鹏说大数据15 小时前
Spark 和 Hive 的关系与区别
大数据·hive·spark
B站计算机毕业设计超人15 小时前
计算机毕业设计Hadoop+Spark+Hive招聘推荐系统 招聘大数据分析 大数据毕业设计(源码+文档+PPT+ 讲解)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
B站计算机毕业设计超人15 小时前
计算机毕业设计hadoop+spark+hive交通拥堵预测 交通流量预测 智慧城市交通大数据 交通客流量分析(源码+LW文档+PPT+讲解视频)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
AI架构师小马15 小时前
Hive调优手册:从入门到精通的完整指南
数据仓库·hive·hadoop·ai
数据架构师的AI之路15 小时前
深入了解大数据领域Hive的HQL语言特性
大数据·hive·hadoop·ai