使用kettle做的数据同步案例

1 mongo同步数据到mysql中

我想把51万8400的计算出来的八字信息,从mongo同步到mysql,看看在mysql中运行会怎么样。

选择mongodb input,这个是在Big Data中。

填写数据库和表

获取到mongodb的字段,获取到mongo的字段,如果某个字段是json结构,则需要自己处理一下,因为mysql中也可以使用json类型。

添加【表输出】,然后按住shift,将mongoDb input表输出建立一条线

修正mongodb与mysql表之间的关系

运行后,可以看到执行情况,51万数据同步花了8分钟。

同样的数据,在mongo中存储占用了1.85GB

而mysql居然使用了14.4GB。存储空间是mongo的7.78倍,查询速度比mongo慢168倍。

在没有创建索引情况下,mysql查询需要1m45s,mongodb需要624ms。mysql如果查询没有索引,几乎无法忍受。
2 mongo同步数据到es中

使用kettle同步mongo到es中去,采用的是\elasticsearch-bulk-insert-plugin,肯定有兼容性问题

于是干脆用python写一个同步

py 复制代码
from pymongo import MongoClient
from elasticsearch7 import Elasticsearch, helpers

# MongoDB连接配置
MONGO_URI = "mongodb://root:123456@127.0.0.1:27017/fay"
MONGO_DB = "fay"
MONGO_COLLECTION = "zp_bazi_info"

# Elasticsearch连接配置
ELASTICSEARCH_HOSTS = [{"host": "localhost", "port": 9200}]
ELASTICSEARCH_INDEX = "zp_bazi_v1"

# 批量提交的大小
BATCH_SIZE = 1000

# 连接MongoDB
mongo_client = MongoClient(MONGO_URI)
mongo_db = mongo_client[MONGO_DB]
mongo_collection = mongo_db[MONGO_COLLECTION]

# 连接Elasticsearch
es_auth = ('elastic', '123456')
es_client = Elasticsearch(hosts=ELASTICSEARCH_HOSTS, http_auth=es_auth)

def sync_data():
    cursor = mongo_collection.find()
    actions = []
    for document in cursor:
        es_document = {k: v for k, v in document.items() if k != '_id'}
        action = {
            '_index': ELASTICSEARCH_INDEX,
            "_id": str(document["_id"]),
            '_source': es_document
        }
        actions.append(action)
        print('拼接action')
        if len(actions) >= BATCH_SIZE:
            helpers.bulk(es_client, actions)
            actions = []  # 清空列表,为下一批数据做准备
            print('批量提交')
    if actions:  # 提交剩余的数据
        helpers.bulk(es_client, actions)

    # 执行同步
sync_data()

es的查询只需要40ms左右,比mongo的查询块15倍左右,存储空间为2.4GB,比mongodb略高。

相关推荐
m0_4538068713 小时前
【已解决】mongoose在mongodb中添加数据,数据库默认复数问题
数据库·mongodb
卓码软件测评19 小时前
第三方软件测评机构:MongoDB分片集群写入吞吐量与延迟第三方性能测评
数据库·mongodb·性能优化·压力测试
m0_555762901 天前
项目1——单片机程序审查,控制系统流程图和时序图
单片机·mongodb·流程图
NineData1 天前
NineData云原生智能数据管理平台新功能发布|2025年8月版
数据库·mongodb·云原生·数据库管理工具·ninedata·数据库迁移·数据复制
Yeats_Liao2 天前
物联网平台中的MongoDB(二)性能优化与生产监控
物联网·mongodb·性能优化
麦兜*2 天前
Docker 部署 MongoDB:单节点与副本集的最佳实践
java·spring boot·mongodb·spring cloud·docker·容器·maven
longerxin20202 天前
MongoDB 在线安装-一键安装脚本(CentOS 7.9)
数据库·mongodb·centos
范纹杉想快点毕业2 天前
请创建一个视觉精美、交互流畅的进阶版贪吃蛇游戏
数据库·嵌入式硬件·算法·mongodb·游戏·fpga开发·交互
路弥行至3 天前
从0°到180°,STM32玩转MG996R舵机
c语言·数据库·stm32·单片机·嵌入式硬件·mcu·mongodb
Yeats_Liao3 天前
物联网平台中的MongoDB(一)服务模块设计与架构实现
物联网·mongodb·架构