GBASE南大通用技术分享:迁移项目数据抽样核对方案简述

近期完成的从某数据库(以下简称"对象数据库")到GBase 8a数据库的全量迁移,涉及库、表、存储过程和数据等,下面简要介绍数据核对的思路。

数据有两个来源:第一是历史数据,该部分数据按照从偶数抽取,落成文件,文件加载到GBase的流程进行处理;第二种是日常的前端系统卸载的数据,该部分数据可以直接执行文件加载到GBase。针对两种来源数据,执行数据核对如下:

1.条数核对

按照统一的时间字段分别对对象数据库和GBase数据库已经迁移的数据,统计时间段对应的数据量,然后进行核对,一致则通过。

2.明细核对

由于表数据量较大的关系,明细核对按照抽样进行,历史数据核对按照以下步骤进行:

A.从对象数据库按条件或者不设置条件抽取10条数据,落成文件

B.将文件加载到GBase的核查临时库

C.GBase库内执行临时核查库和已迁移库的数据驻字段核对

D.临时核查库的数据导出到文件

E.将A步骤和D步骤的文件,做sort处理后分别计算md5,如果一致则通过

日常加载数据核对方法与历史数据核对类似,A步骤的源数据从偶数抽取改成从日常文件中取10条样例数据即可。

3.明细核对可能出现的问题

A.对象数据库中的numeric如果不设置精度,默认在GBase创建表后列属性为decimal(65,6),数据可能与原偶数内的不一致,如果条件允许,可以计算一下偶数内涉及到的列数据的精度的最大长度,依此作为修改依据。

B.对象数据库的numeric如果设置精度,数据如果不足精度,并不会自动补齐,这个表现与GBase不同,数据核对时需要依据数据最大精度设置,免数据异常截断,

C.GBase的decimal类型列数据加载时会自动截断或者补齐精度,此时会产生Waring,但不会有skip,但是加载到bigint/int类会报skip,

D.decimal修改为bigint后,可能数据会超出bigint范围,引发后续问题,需要持续关注。

相关推荐
liliangcsdn19 分钟前
如何使用python创建和维护sqlite3数据库
数据库·sqlite
TDengine (老段)7 小时前
TDengine 数学函数 DEGRESS 用户手册
大数据·数据库·sql·物联网·时序数据库·iot·tdengine
TDengine (老段)7 小时前
TDengine 数学函数 GREATEST 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
安当加密7 小时前
云原生时代的数据库字段加密:在微服务与 Kubernetes 中实现合规与敏捷的统一
数据库·微服务·云原生
爱喝白开水a7 小时前
LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
开发语言·数据库·人工智能·python·langchain·prompt·知识图谱
想ai抽7 小时前
深入starrocks-多列联合统计一致性探查与策略(YY一下)
java·数据库·数据仓库
武子康7 小时前
Java-152 深入浅出 MongoDB 索引详解 从 MongoDB B-树 到 MySQL B+树 索引机制、数据结构与应用场景的全面对比分析
java·开发语言·数据库·sql·mongodb·性能优化·nosql
longgyy8 小时前
5 分钟用火山引擎 DeepSeek 调用大模型生成小红书文案
java·数据库·火山引擎
ytttr8738 小时前
C# 仿QQ聊天功能实现 (SQL Server数据库)
数据库·oracle·c#
盒马coding9 小时前
第18节-索引-Partial-Indexes
数据库·postgresql