将CSV、Excel、XML文件转换为MySQL数据库

在平时的工作中,经常会遇到需要将文件数据导入到数据库中的情况。有些客户之前可能只使用Excel表格作为记录工具,但当数据量达到一定程度或者需要将数据导入到其他系统中时,就会很emo,因为Excel表格虽然方便,但在数据处理和管理方面却存在很多限制。此时就需要将Excel表格中的数据导入到MySQL数据库中,以便更好地管理和利用这些数据。除了Excel表格,有时还需要处理CSV或XML格式的数据,比如某些数据源或第三方平台获取的数据可能就是这两种格式,我遇到过某设备导出的数据为欧洲千分位CSV的格式,用户自己处理起来就更emo了。

给MySQL数据库读取文件赋权

在进行转换前需要先给MySQL数据库赋权,因为MySQL服务器通常配置了一个安全选项,限制了LOAD DATA INFILE语句可以加载文件的目录。这个--secure-file-priv选项就是用于限制LOAD DATA INFILESELECT ... INTO OUTFILE操作可以访问的文件目录。

赋权需要先输入命令查看--secure-file-priv指定的目录路径,随后使用cp命令将要转换的CSV、Excel(需要转化为CSV文件)文件移动到这个路径下:

sql 复制代码
SHOW VARIABLES LIKE 'secure_file_priv';

复制文件到查询到的/var/lib/mysql-files/文件夹里(Amazon Dataset.csv是我从kaggle上下载的CSV文件名称):

bash 复制代码
sudo cp "/数据文件存放的路径/Amazon Dataset.csv" "/var/lib/mysql-files/"

赋予MySQL读取文件的权利:

bash 复制代码
sudo chown mysql:mysql "/var/lib/mysql-files/Amazon Dataset.csv"
bash 复制代码
sudo chmod 640 "/var/lib/mysql-files/Amazon Dataset.csv"

重启MySQL服务器:

bash 复制代码
sudo systemctl restart mysql

CSV文件转换

接下来就可以创建MySQL数据库了,根据原数据格式来建立

sql 复制代码
CREATE DATABASE amazon;  
USE amazon;

CREATE TABLE IF NOT EXISTS daily_prices (  
    Date DATE PRIMARY KEY,  
    Open FLOAT,  
    High FLOAT,  
    Low FLOAT,  
    Close FLOAT,  
    Adj_Close FLOAT,  
    Volume BIGINT  
);

接下来进行数据读取和转换:CSV文件以 , 作为分割,所以使用FIELDS TERMINATED BY ','提示数据库原文件是,分割格式,ENCLOSED BY '"'指定每个字段的值都应该在双引号内,LINES TERMINATED BY '\n'指定每条记录之间的分隔符是换行符(\n),IGNORE 1 ROWS;指定指定导入数据时忽略文件的第一行。

sql 复制代码
LOAD DATA INFILE '/var/lib/mysql-files/Amazon Dataset.csv'  
INTO TABLE daily_prices  
FIELDS TERMINATED BY ','  
ENCLOSED BY '"'  
LINES TERMINATED BY '\n'  
IGNORE 1 ROWS;

查询下数据库是否转换成功:

sql 复制代码
SELECT * FROM daily_prices;

Excel文件转换

安装gnumeric将xls或xlsx文件转换为.csv文件

bash 复制代码
udo apt-get install gnumeric

安装完gnumeric后,使用ssconvert命令来将.xls文件转换为.csv文件:

bash 复制代码
ssconvert 数据.xls 数据.csv

随后既可以像操作CSV文件一样进行操作。

XML文件转换

我从国家数据官网下载的XML格式数据,官网链接:国家数据官网,在下载完数据后先看一下数据结构

根据数据结构来建立一个数据库:

sql 复制代码
CREATE DATABASE month_data;  
USE month_data;  
  
CREATE TABLE monthly (  
    id INT AUTO_INCREMENT PRIMARY KEY,  
    indicator VARCHAR(255),  
    time VARCHAR(255),  
    data DECIMAL(10, 2)  
);

接下来编写Python脚本,需要提前下载lxml库lxml库相对于xml库更灵活方便,处理编码方式效果更好:

python 复制代码
# import_xml.py
from lxml import etree 
import mysql.connector  
  
conn = mysql.connector.connect(  
    host='主机名',  
    user='用户名',  
    password='用户密码',  
    database='database的名字'  
)  
cursor = conn.cursor()  
tree = etree.parse('network.xml')  
root = tree.getroot() 
  
for record in root.findall('data/record'):  
    indicator = record.find('field[@name="指标"]').text  
    time = record.find('field[@name="时间"]').text  
    data = record.find('field[@name="数据"]').text  
      
    cursor.execute(  
        "INSERT INTO monthly (indicator, time, data) VALUES (%s, %s, %s)",  
        (indicator, time, data)  
    )  
  
conn.commit()  
cursor.close()  
conn.close()

随后在终端运行它:

bash 复制代码
python3 import_xml.py

运行成功后查询一下:

sql 复制代码
SELECT * FROM monthly;

转换成功!

相关推荐
尘浮生30 分钟前
Java项目实战II基于微信小程序的南宁周边乡村游平台(开发文档+数据库+源码)
java·开发语言·数据库·spring boot·微信小程序·小程序·maven
东阳马生架构5 小时前
MySQL底层概述—1.InnoDB内存结构
java·数据库·mysql
standxy5 小时前
通过轻易云平台实现聚水潭数据高效集成到MySQL的技术方案
android·数据库·mysql
itwangyang5205 小时前
2025 - 科研神器 - 批量处理 PDF、SVG、PNG 和 JPG 文件,将它们转换为彩色 TIFF 文件,并保存到指定的 tiff 文件夹中
数据库·pdf
痞老板A小安装C46 小时前
redis的大key和热key问题解决方案
数据库·redis·bootstrap
feilieren6 小时前
DataGrip 连接 Redis、TongRDS
数据库·redis·缓存
苹果酱05676 小时前
windows安装redis, 修改自启动的redis服务的密码
java·开发语言·spring boot·mysql·中间件
液态不合群6 小时前
Redis中常见的数据类型及其应用场景
数据库·redis·wpf
Allen Bright6 小时前
Jedis存储一个-以String的形式的对象到Redis
数据库·redis·缓存
Allen Bright7 小时前
Jedis存储一个以byte[]的形式的对象到Redis
数据库·redis·缓存