由数据插入超长引起的问题——了解GaussDB和openGauss的字符集

前言

故事是这样开始的。我们的小DEMO项目的数据库版本从openGauss 2.1.0升级到了5.0.0版本。升级后进行功能验证的时候,测试同学发现个BUG,原来通过gs_restore导出来的数据再导入时报超长,插入失败了,如下图所示,nvarchar(10)的字段类型,无法插入10个汉字---"齐天大圣孙悟空美猴王"。


一、定位过程

疑问一 :openGauss高版本是否没有兼容低版本?

接到问题后以为是openGauss 5.0.0版本没有兼容2.1.0版本的字段类型,于是查阅了官网的资料:

5.0.0版本

2.1.0版本

确认发现两个版本对于nvarchar2(n)类型的定义是一样的,都是表示的字符的长度。

疑问二:5.0.0版本和2.1.0版本对字符的定义是否不同?

查看了数据库列表,确认字符集的异同,为了区分截图,同时查询了openGauss的数据库版本。发现2.1.0版本的模板数据库(template0,template1)的字符集(Encoding)是UTF8,而5.0.0版本的模板数据库(template0,template1)的字符集(Encoding)是SQL_ASCII。

2.1.0:

而openGauss创建数据库的过程,是通过复制template数据库创建的,默认复制template0,参见官网资料对create database的介绍:

So,如果创建数据库时不专门指定字符集,那么5.0.0版本和2.1.0版本创建的数据库的字符集就是不同的。2.1.0版本创建的数据库的字符集是UTF8,而5.0.0是SQL_ASCII。

2.1.0:

5.0.0:

疑问三:再挖一步,为什么2.1.0版本默认的字符集和5.0.0版本不同呢?

后知后觉的发现原来是因为我之前安装2.1.0环境的时候指定了字符集,指定字符集的命令如下:

gs_install -X /opt/software/openGauss/clusterconfig.xml --gsinit-parameter="--locale=zh_CN.utf8 --encoding=UTF-8"

而安装5.0.0版本的时候没有指定字符集,不指定字符集的命令:

gs_install -X /opt/software/openGauss/clusterconfig.xml

openGauss在不指定字符集的时候默认会是SQL_ASCII,和版本无关,所有版本均如此。

有一点想锤自己且恍然大悟如梦初醒的感觉,不过我们还是继续确认两个字符集的区别。

小结:两个字符集的异同

查阅官网发现,UTF8和SQL_ASCII的字符的长度是不同的,如下图所示:

导致数据插入失败的原因算是找到了,字符集的区别导致的。

二、解决方法

1. 安装数据库时显式的指定字符集是UTF8,则默认创建好的模板数据库就会继承安装时指定的字符集;

gs_install -X /opt/software/openGauss/clusterconfig.xml --gsinit-parameter="--locale=zh_CN.utf8 --encoding=UTF-8"

2. 创建数据库时显式的指定字符集是UTF8,则默认创建好的表就会继承数据库的字符集;

3. 创建模式时显示的指定字符集是UTF8,则表的默认字符集就会是UTF8;

该方法仅支持B模式的数据库,且要加载dolphon插件,B模式指兼容mysql,目前还没有实证,后续。--官网文档写的有点简陋了。

4. 创建表时显式的指定字符集是UTF8,则表的默认字符集就会是UTF8;

5. 增加列时显式指定列的字符集是UTF8,则该列的字符集就会是UTF8;

逻辑上讲上述4种都可以,遗憾的是目前对表和列指定字符集的功能,在5.0.0版本并未实现功能,只是支持了语法,而指定模式的字符集,参见第二种方式,仅在B模式下实现了。

因此实际操作中,前两种方法都可以,在安装数据库时指定字符集或者创建数据库时指定字符集。指定字符集后再创建表,则表就会继承数据库的字符集,nvarchar(10)就可以支持10个汉字了。

三、扩展阅读

GaussDB数据库的默认字符集是什么呢?

  1. GaussDB(3.223.0)默认的encoding是UTF8,template0和template1两个模板数据库的编码格式也是UTF8。

Encoding = 7,7表示UTF8

默认创建的数据库字符集是UTF8。

新建时通过下拉框选择,支持如下几种字符集:

  1. 那么GaussDB支持创建scheme的时候指定和database的encoding不同的charset吗?试试看,我们创建了一个数据库testdb_ascii,字符集是SQL_ASCII。然后在该数据库中创建一个schema,charset指定UTF8,执行时报错还不支持。
  1. 创建表时会怎么样呢?我们试着创建一个指定CHARSET为UTF8的表,执行时没有报错,是可以执行成功,然而查看表信息的时候发现,表的字符集仍然是SQL_ASCII,说明指定CHARSET的操作并没有执行。创建表:

查询表信息:

  1. 增加列时指定charset会怎么样呢?个人理解,由于GaussDB是在openGauss基础上进行的云化,因此也只在B模式下支持,见下图:

当我创建了一个B模式的数据库,执行相同的SQL,报错变了,但仍然是没有支持:

  1. 可见在GaussDB以及openGauss中,创建数据库时要确定好字符集,否则数据库创建好后,就无法再在低一级的Schema,table和Column中重新制定,遇到不适用的场景只能重新建库。

附录

一些本文中用到的脚本汇总:

---不指定字符集安装数据库

gs_install -X /opt/software/openGauss/clusterconfig.xml

---指定字符集为UTF8安装数据库

gs_install -X /opt/software/openGauss/clusterconfig.xml --gsinit-parameter="--locale=zh_CN.utf8 --encoding=UTF-8"

---不指定字符集创建数据库

create database test_encoding_default;

---指定字符集为UTF8创建数据库

create database test_encoding_utf8 encoding 'utf8';

---切换到另外一个数据库

\c test_encoding_utf8

---指定字符集创建表

create table t (id nvarchar2(10)) charset = 'utf8';

---不指定字符集创建表

create table t (cname nvarchar(10));

create table t (id nvarchar2(10)) ;

---显示表t的详细信息

\d t --detail;

---插入数据

insert into t values('齐天大圣孙悟空美猴王');

---查询字符集,并显示数值value和字符集的对应关系

select encoding,pg_encoding_to_char(encoding) as encoding ,datname from pg_database;

关于作者

本文内容来自于数据库领域资深技术专家赵锋老师,OpenHarmony WEB3 TSG成员。先后就职于大唐电信、华为和软通动力,拥有多年项目开发,设计和优化运维经验。在数据库领域摸爬滚打多年,经历过Oracle,DB2和SQL Server的时代,国产数据库崛起后,对华为GaussDB系列数据库进行了深入学习和研究,获得华为GaussDB HICA、GaussDB HCIP、GaussDB HICA SI以及openGauss HCIA证书。致力于国产开源数据库在业务项目中的实践和应用。

本篇就到此结束了,欢迎交流~

相关推荐
tatasix4 分钟前
MySQL UPDATE语句执行链路解析
数据库·mysql
南城花随雪。17 分钟前
硬盘(HDD)与固态硬盘(SSD)详细解读
数据库
儿时可乖了18 分钟前
使用 Java 操作 SQLite 数据库
java·数据库·sqlite
懒是一种态度20 分钟前
Golang 调用 mongodb 的函数
数据库·mongodb·golang
天海华兮22 分钟前
mysql 去重 补全 取出重复 变量 函数 和存储过程
数据库·mysql
gma9991 小时前
Etcd 框架
数据库·etcd
爱吃青椒不爱吃西红柿‍️1 小时前
华为ASP与CSP是什么?
服务器·前端·数据库
Yz98762 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
武子康2 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
苏-言2 小时前
Spring IOC实战指南:从零到一的构建过程
java·数据库·spring