sql server位于A机器,windows10操作系统
mysql位于B机器,windows10操作系统
B机器上使用mysql workbench,导入的时候每次仅仅导入2574条数据之后便中断了,csv中有2686365条数据
csv文件无论是使用记事本还是sublime都能正常打开,中英文正常显示,没有乱码
但是就是导入mysql会中断
使用python的时候没法使用utf8打开,只能使用gbk编码打开,而且读取到2576行的时候,显示
UnicodeDecodeError: 'gbk' codec can't decode byte 0xaa in position 5450: illegal multibyte sequence
曾将csv转为xlsx文件,再转为csv,仍旧是读取到2576行的时候报解码错误。
使用notepad++打开以后发现编码方式不是gbk也不是utf-8,而是UTF-8-BOM
在notepad++中点击"编码",转换为UTF-8编码以后,再导入mysql报错:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa1 in position 4: illegal multibyte sequence
一条数据都导入不了了。
至于为什么python使用gbk读取utf-8-bom编码文件,我猜想应该是gbk和utf-8-bom编码有交集
最后:使用Python读取notepad++将utf-8-bom编码转换为utf-8编码后的文件,转换为sql脚本