利用logstash同步100万MySQL数据到es

安装logstash和es这些看之前的一篇文章

第一步修改logstash.conf文件

input {
    jdbc {
    	jdbc_driver_library => "/usr/share/logstash/lib/mysql-connector-j-8.0.33.jar"
    	jdbc_driver_class => "com.mysql.cj.jdbc.Driver"
        jdbc_connection_string => "jdbc:mysql://192.168.150.7:3306/data-synchronism"
        jdbc_user => "root"
        jdbc_password => "root"
        
        #启用追踪,如果为true,则需要指定tracking_column
    	use_column_value => true
    	#指定追踪的字段,
    	tracking_column => "update_time"
        #追踪字段的类型,目前只有数字(numeric)和时间类型(timestamp),默认是数字类型
    	tracking_column_type => "timestamp"
        # 记录最后一次运行的结果
    	record_last_run => true
    	# 上面运行结果的保存位置  这个文件中保存着最后一次查询,update_time字段的值,下一次查询就可以用这个值来做where条件
    	last_run_metadata_path => "jdbc-position.txt"
        
        # 因为我上面使用的是timestamp追踪字段类型,sql_last_value这里开始的值是1970-01-01 00:00:00
        # 之后sql_last_value 的值就是最后一次查询 追踪字段的值,这个值保存在上方定义的 jdbc-position.txt文件中
        statement => "SELECT * from demo where update_time >:sql_last_value"
        # cron 定时  每秒执行一次
        schedule => " * * * * * *"
    }
}
# filter {
#   # 添加同步前的时间戳(这里用事件进入filter阶段的时间作为示例)
#   ruby {
#     code => "event.set('sync_before_time', Time.now.utc.iso8601)"
#   }
  
#   # ... 其他filter插件和代码 ...
  
#   # 在filter阶段末尾或适当位置添加同步完的时间戳(这里为了示例简单,仍然用当前时间)
#   # 注意:在实际应用中,这里的时间可能并不完全代表数据真正写入目标数据源的时间,
#   # 因为output阶段还可能存在延迟。因此,这个字段更多是作为逻辑上的"同步完"时间。
#   ruby {
#     code => "event.set('sync_after_time', Time.now.utc.iso8601)"
#   }
# }
output {
	elasticsearch {
        hosts => ["http://es1:9200", "http://es2:9200", "http://es3:9200"]
        # 索引:等于数据的名称
        index => "demo"
        # 文档id
        document_id => "%{id}"		# 指定文档id, %{}取字段中的值  id为字段名
        user => "elastic"
     	password => "elastic"
    }
    # 控制台也输出看看
 	stdout {
 		codec => rubydebug 
        # { metadata => true }
 	}		
}

上面配置自己的MySQL数据库地址

第二步创建数据库并造100万数据

sql 复制代码
create database `data-synchronism`;
use `data-synchronism`;
CREATE TABLE demo (
  id INT AUTO_INCREMENT PRIMARY KEY,
  username VARCHAR(50) NOT NULL,
  email VARCHAR(100) NOT NULL,
  create_time datetime,
  update_time datetime
);
DELIMITER $$
 
CREATE PROCEDURE generate_sample_data()
BEGIN
  DECLARE v_counter INT DEFAULT 0;
  WHILE v_counter < 1000000 DO
    INSERT INTO demo (username, email, create_time, update_time) VALUES (
      CONCAT('user', v_counter),
      CONCAT('user', v_counter, '@example.com'),
      NOW(),
      NOW()
    );
    SET v_counter = v_counter + 1;
  END WHILE;
END$$
 
DELIMITER ;
CALL generate_sample_data();

导入的时间会很长耐心等待

第三步将mysql-connector-j-8.0.33.jar上传到/my_elk/logstash/lib中

第四步通过docker-compose启动容器

bash 复制代码
docker-compose -f es.yml up -d

启动后马上把MySQL的驱动包复制到容器中

bash 复制代码
docker cp /my_elk/logstash/lib/mysql-connector-j-8.0.33.jar logstash:/usr/share/logstash/lib

最后重启一下logstash

bash 复制代码
docker restart logstash

最后验证同步数据

通过日志查看正在同步的数据

通过kibana查询es中的数据

同步100万数据的时间



容器创建的时间跟系统时间差了八小时,通过测试可以得出结果,因容器启动也需要时间,所以同步100万数据的大概时间是20分钟左右。

由于是本地测试,网络波动不是很大,如果是远程服务器测试,需要的时间大约是30分钟左右

同步500多万数据的时间


上面同步100万数据容器是冷启动的,这次500多万数据容器是热启动时间快了很多

相关推荐
weisian15113 分钟前
Mysql--基础篇--事务(ACID特征及实现原理,事务管理模式,隔离级别,并发问题,锁机制,行级锁,表级锁,意向锁,共享锁,排他锁,死锁,MVCC)
数据库·mysql
唐梓航-求职中42 分钟前
缓存-Redis-API-Redisson-可重试
数据库·redis·缓存
HUNAG-DA-PAO1 小时前
如何解决数据库和缓存不一致的问题
数据库·缓存
风起洛阳@不良使1 小时前
oracle闪回版本查询
数据库·oracle
风月歌1 小时前
java项目之旅游网站的设计与实现(源码+文档)
java·mysql·vue·源码·springboot
love静思冥想1 小时前
批量执行 SQL 脚本的 Shell 脚本及注意事项
数据库·sql·oracle
Z灏2 小时前
canal同步es,sql注意事项
数据库·sql·elasticsearch·canal
Rverdoser2 小时前
Redis-代理(解决redis压力)
数据库·redis·缓存
V+zmm101343 小时前
校园资料分享微信小程序”的设计与实现springboot+论文源码调试讲解
java·数据库·微信小程序·小程序·毕业设计·springboot
虾搞哦3 小时前
MySQL 存储引擎
数据库·mysql