数据开发技术上主要是写SQL,业务上理解交付文档的需求。
用tidb和starrocks还有SQLserver这三个数据库,对数据进行加工开发和交付;业务时间用Python开发些自动化工具,用小海豚调度工具,用迁移工具dataX啥的,总体来说技术含量不高,只能是往业务方向上靠。
半年来主要参与过三个主要项目;目前在开荒,将tidb上的生产项目迁移到starrocks上,步骤主要是修改建表语句和xml语法(在xml中开发用来适配后面组件开发),然后用小海豚和dataX从生产迁移数据,单表最大数据量是5千万级别,迁移好底层清晰数据后,再迁移镜像数据,再设计方案,对迁移后,两边环境重新生成的交付数据进行数据比对,这个项目主要卡点就是数据比对工具需要自己开发,目前就是拿Python自己开发,逻辑也很简单,整理出需要排除的冗余字段和系统字段,在将剩余字段排序,要保证两边顺序一致,计算md5值,再full join一下,整理出三类差异:tidb有、sr有、两边都有但数量不一样。记录日志,再根据日志进行比对
整体来说,难度比较低,但是每日很焦虑,毕竟项目快结束的时候,就是大竞争的时候,目前几十个外包,到时候应该只留下几个,唉,前路迷茫。