Hive建表乱码解决--设置编码格式UTF8

1.创建Hive元数据库

Hive元数据存储在MySQL中,因此需要进入MySQL中创建Hive元数据库;若已存在Hive元数据库,则修改元数据库字符格式

hive建库语句:

sql 复制代码
 create database amon DEFAULT CHARSET utf8 COLLATE utf8_general_ci;

只有修改编码后才加入的中文注释才会正常显示 ,修改编码前已经存在的中文注释会乱码!

sql 复制代码
##创建hive元数据库hive,并指定utf-8编码格式
mysql>create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;
 
 
##修改已存在的hive元数据库,字符编码格式为utf-8
mysql>alter database hive character set utf8;     
 
 
##进入hive元数据库
mysql>use hive;
 
##查看元数据库字符编码格式
mysql>show variables like 'character_set_database';  

可以看到原本编码是Hive在搭建时选择的默认格式。

2.修改Hive的元数据信息

Hive启动后,修改Hive的元数据信息,无需重启MySQL和Hive就能生效;

1).修改字段注释字符集(直接复制运行即可)

sql 复制代码
alter table hive.COLUMNS_V2 modify column COMMENT varchar(256) character set utf8

2).修改表注释字符集

sql 复制代码
alter table hive.TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8

3).修改分区表参数,以支持分区键能够用中文表示

sql 复制代码
alter table hive.PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8
alter table hive.PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8

4).修改索引注解

sql 复制代码
alter table hive.INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

自此重新建表,乱码问题即可解决

Hive无法创建中文分区

报错如下:

sql 复制代码
hive> alter table page_view add partition(ds='20240618开心');
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Exception thrown when executing query)

解决办法如下:

sql 复制代码
MariaDB [hive]> show create table PARTITIONS;
 
| PARTITIONS | CREATE TABLE `PARTITIONS` (
  `PART_ID` bigint(20) NOT NULL,
  `CREATE_TIME` int(11) NOT NULL,
  `LAST_ACCESS_TIME` int(11) NOT NULL,
  `PART_NAME` varchar(767) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL,
  `SD_ID` bigint(20) DEFAULT NULL,
  `TBL_ID` bigint(20) DEFAULT NULL,
  `LINK_TARGET_ID` bigint(20) DEFAULT NULL,
  PRIMARY KEY (`PART_ID`),
  UNIQUE KEY `UNIQUEPARTITION` (`PART_NAME`,`TBL_ID`),
  KEY `PARTITIONS_N49` (`TBL_ID`),
  KEY `PARTITIONS_N50` (`SD_ID`),
  KEY `PARTITIONS_N51` (`LINK_TARGET_ID`),
  CONSTRAINT `PARTITIONS_FK1` FOREIGN KEY (`TBL_ID`) REFERENCES `TBLS` (`TBL_ID`),
  CONSTRAINT `PARTITIONS_FK2` FOREIGN KEY (`SD_ID`) REFERENCES `SDS` (`SD_ID`),
  CONSTRAINT `PARTITIONS_FK3` FOREIGN KEY (`LINK_TARGET_ID`) REFERENCES `PARTITIONS` (`PART_ID`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
 
MariaDB [hive]> alter table PARTITIONS  modify column `PART_NAME` varchar(767) character set utf8;
ERROR 1071 (42000): Specified key was too long; max key length is 767 bytes
MariaDB [hive]> alter table PARTITIONS  modify column `PART_NAME` varchar(100) character set utf8;   
Query OK, 0 rows affected (0.01 sec)               
Records: 0  Duplicates: 0  Warnings: 0
 
MariaDB [hive]> alter table PARTITIONS  modify column `PART_NAME` varchar(300) character set utf8;   
ERROR 1071 (42000): Specified key was too long; max key length is 767 bytes
MariaDB [hive]> alter table PARTITIONS  modify column `PART_NAME` varchar(200) character set utf8;   
Query OK, 0 rows affected (0.00 sec)               
Records: 0  Duplicates: 0  Warnings: 0
 
MariaDB [hive]> alter table PARTITIONS  modify column `PART_NAME` varchar(250) character set utf8;  
Query OK, 0 rows affected (0.00 sec)               
Records: 0  Duplicates: 0  Warnings: 0
 
MariaDB [hive]> alter table PARTITIONS  modify column `PART_NAME` varchar(260) character set utf8;  
ERROR 1071 (42000): Specified key was too long; max key length is 767 bytes

另验证一个问题,utf8占用三个字节,之前默认是767,若指定250 * 3 = 750可以,但260*3=780不可以;

再去创建中文分区测试即可成功

sql 复制代码
alter table page_view add partition(ds='20240618开心');

插入数据

sql 复制代码
insert into page_view  partition(ds='20240618') values (1,"张三","李四") ;

查看包含中文的数据

sql 复制代码
select * from page_view where ds="20240618";

查看索引

sql 复制代码
SHOW FORMATTED INDEX ON page_view;

查看表结构

sql 复制代码
desc page_view;
相关推荐
程序员小羊!1 小时前
大数据电商流量分析项目实战:Hive 数据仓库(三)
大数据·数据仓库·hive
IT毕设梦工厂14 小时前
大数据毕业设计选题推荐-基于大数据的国家医用消耗选品采集数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
core51214 小时前
Hive实战(一)
数据仓库·hive·hadoop·架构·实战·配置·场景
智海观潮14 小时前
Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件
hive·sql·spark
isfox19 小时前
Hadoop简介:分布式系统的基石与核心架构详解
hadoop
Lx3521 天前
大规模Hadoop集群管理:运维经验与监控策略
大数据·hadoop
TTBIGDATA1 天前
【Ambari监控】Ambari-Metrics 的分支研究
大数据·数据库·hadoop·ambari·bigtop·edp·hidataplus
IT学长编程1 天前
计算机毕业设计 基于Hadoop的南昌房价数据分析系统的设计与实现 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试
大数据·hadoop·python·毕业设计·课程设计·毕业论文·豆瓣电影数据可视化分析
奋斗的蛋黄1 天前
HDFS(Hadoop 分布式文件系统)知识点梳理
大数据·hadoop·hdfs
cxr8282 天前
基于Claude Code的 规范驱动开发(SDD)指南
人工智能·hive·驱动开发·敏捷流程·智能体