Hive数仓操作(十四)

一、Hive的DDL语句

在 Hive 中,DDL(数据定义语言)语句用于数据库和表的创建、修改、删除等操作。以下是一些重要的 DDL 语句:

1. 创建数据库和表

  • 创建数据库

    sql 复制代码
    CREATE DATABASE IF NOT EXISTS database_name;
  • 创建表

    sql 复制代码
    CREATE TABLE table_name (
      column1_name data_type,
      column2_name data_type,
      ...
    )
    COMMENT 'Table comment'
    STORED AS file_format;

2. 修改表

  • 重命名表

    sql 复制代码
    ALTER TABLE old_table_name RENAME TO new_table_name;
  • 添加列

    sql 复制代码
    ALTER TABLE table_name ADD COLUMNS (new_column_name1 data_type , new_column_name2 data_type);
  • 重命名列

    sql 复制代码
    ALTER TABLE table_name CHANGE old_column_name new_column_name data_type;
    • CHANGE 不能进行从字符串到数字类型或从大数字类型到小数字类型的转换
  • 删除列:

    • 使用 REPLACE COLUMNS 可以"删除"某些列,其实本质是通过重新定义表的列结构来实现。

    • 实际上,删除的列的数据不会立即物理删除,而是从表结构中移除。

    • REPLACE COLUMNS 中,需要列出所有想要保留的列及其数据类型。

    • 未列出的列将被"删除"。

    • 限制:只能从末尾开始删除列。如果从中间或开头删除,可能会导致表结构的错误,且无法恢复这些列的数据。

示例

假设有一个表 shop_fq,包含以下列:

sql 复制代码
CREATE TABLE shop_fq (
  id INT,
  name STRING,
  price DECIMAL(10, 2),
  category STRING
);

如果需要删除 pricecategory 列,只保留 idname,可以这样操作:

sql 复制代码
ALTER TABLE shop_fq REPLACE COLUMNS (
  id INT,
  name STRING
);

注意

  • 数据的物理存在: 虽然列被"删除",但数据仍然存在于文件中,只是 Hive 不再管理这些数据。

3. 删除数据库和表

  • 删除数据库

    sql 复制代码
    DROP DATABASE IF EXISTS database_name CASCADE;
  • 删除表

    sql 复制代码
    DROP TABLE IF EXISTS table_name;

4. 分区和分桶

  • 创建分区表

    sql 复制代码
    CREATE TABLE table_name (
      column1_name data_type,
      column2_name data_type
    )
    PARTITIONED BY (partition_column_name data_type)
    STORED AS file_format;
  • 创建分桶表

    sql 复制代码
    CREATE TABLE table_name (
      column1_name data_type,
      column2_name data_type
    )
    CLUSTERED BY (bucket_column_name) INTO num_buckets BUCKETS
    STORED AS file_format;

5. 修改分区

  • 添加分区

    sql 复制代码
    ALTER TABLE table_name ADD PARTITION (partition_column='value');
  • 删除分区

    sql 复制代码
    ALTER TABLE table_name DROP PARTITION (partition_column='value');

二、Hive的子查询

查询出和10号部门的工作岗位相同的其他部门的员工信息

1. IN 子查询(由于HIVE莫名的不可抗力会经常报错,建议用后两种方法)

sql 复制代码
SELECT * 
FROM emp 
WHERE job IN (SELECT job FROM emp WHERE deptno=10) 
AND deptno != 10;
  • 从表 emp 中选择所有员工。
  • 条件是员工的 job 在子查询返回的职位列表中。
  • 子查询从 deptno 为 10 的部门中选择 job
  • 还要求 deptno 不是 10,以排除自身。

2. LEFT SEMI JOIN

sql 复制代码
SELECT * 
FROM (SELECT * FROM emp WHERE deptno != 10) a
LEFT SEMI JOIN (SELECT job FROM emp WHERE deptno=10) b
ON a.job = b.job;
  • emp 表中选择 deptno 不等于 10 的员工。
  • 使用 LEFT SEMI JOIN 将这些员工和来自 deptno 为 10 的员工的职位匹配。
  • LEFT SEMI JOIN 只返回在 b 中匹配的 a 的行,相当于使用 IN 的效果。

3. EXISTS

sql 复制代码
SELECT * 
FROM emp e 
WHERE EXISTS (SELECT 1 FROM emp b WHERE b.deptno=10 AND e.job = b.job) 
AND e.deptno != 10;
  • 从表 emp 中选择所有员工。
  • 使用 EXISTS 子查询检查是否存在 deptno 为 10 且 job 相同的记录。
  • 同时确保 deptno 不等于 10,以排除自身。
相关推荐
暮毅几秒前
10.Node.js连接MongoDb
数据库·mongodb·node.js
wowocpp4 分钟前
ubuntu 22.04 server 格式化 磁盘 为 ext4 并 自动挂载 LTS
服务器·数据库·ubuntu
成富26 分钟前
文本转SQL(Text-to-SQL),场景介绍与 Spring AI 实现
数据库·人工智能·sql·spring·oracle
songqq2727 分钟前
SQL题:使用hive查询各类型专利top 10申请人,以及对应的专利申请数
数据库·sql
计算机学长felix31 分钟前
基于SpringBoot的“校园交友网站”的设计与实现(源码+数据库+文档+PPT)
数据库·spring boot·毕业设计·交友
小码的头发丝、1 小时前
Django中ListView 和 DetailView类的区别
数据库·python·django
Karoku0661 小时前
【企业级分布式系统】Zabbix监控系统与部署安装
运维·服务器·数据库·redis·mysql·zabbix
拓端研究室TRL2 小时前
【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码...
大数据
黄焖鸡能干四碗2 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
编码小袁2 小时前
探索数据科学与大数据技术专业本科生的广阔就业前景
大数据