解决mysql报错：1406, Data too long for column

最近在往 MySQL 里导入一张 1000 万行的 tb_sku表时，我算是彻底领教了 LOAD DATA这个工具的"脾气"。原本以为这是个能救命的神器，结果差点被它整崩溃。今天就把这次的血泪史总结一下，希望能帮大家避雷。

一、所谓的"智能解析"，其实一点也不智能

首先最大的误区就是：千万别把 LOAD DATA当成智能解析工具。

我一开始天真地以为，CSV 里的 null字符串，MySQL 总会帮我转成 NULL吧？结果现实狠狠打了脸。在 tb_sku表中，status字段是 char(1)，但 CSV 里写的是 null。LOAD DATA根本不会做语义判断，它直接把 'n', 'u', 'l', 'l'往字段里塞，直接导致 Data too long for column 'status'的错误。

结论一 ：LOAD DATA只认 \N是 NULL，其他的 null、NULL统统是字符串。

二、最隐蔽的坑：字段错位

这是我踩得最深的一个坑。报错永远指向 status字段，让我一度以为是 status的长度不够。但当我用 select * from tb_sku where id=9449\G;查看时才发现，真正的原因是字段错位。

因为 CSV 里有些字段（比如 spec）包含了逗号，或者因为 null字符串占用了额外空间，导致整个数据流的列顺序向后偏移。MySQL 并不会告诉你"第 10 列有问题"，而是等到最后一列 status发现装不下时，才抛出错误。

这就好比排队，前面的人多占了位置，最后一个人永远是被挤出去的那个。

三、为什么还在用 LOAD DATA？

既然这么多坑，为什么不全用 INSERT？原因很简单：速度。

在导入 1000 万行数据时，LOAD DATA INFILE的速度至少是单条 INSERT的 10 倍以上。对于海量数据迁移，它是唯一现实的选择。它不是不好用，而是它设计的初衷就是"在已知数据完全干净的前提下，提供最高吞吐量的写入"。

四、血的教训：五个必须的检查步骤

经过这次折腾，我总结了使用 LOAD DATA前必须做的 5 项数据清洗检查，缺一不可：

检查分隔符是否唯一 ：确保数据内容中不包含你使用的分隔符（如 ,或 |），否则必须用双引号包裹，或者更换分隔符。
检查列数一致性 ：用 awk扫一遍文件，确保所有行的列数都等于表字段数，剔除脏数据。
规范化 NULL 值 ：将所有的 null字符串替换为 \N，或者在 SQL 中使用 NULLIF()函数处理。
检查字段长度 ：特别是 varchar类型的字段，防止超长字符串导致写入失败。
检查换行符 ：如果是 Windows 环境下生成的文件，记得用 dos2unix处理，防止 \r\n引发解析异常。

五、总结

LOAD DATA是一把双刃剑。它锋利无比，能帮你快速切开海量数据；但它也很笨重，没有任何容错能力。

如果你指望它能像 Excel 一样智能纠错，那你一定会失望。但如果你愿意花几分钟做一次数据清洗，它绝对是 MySQL 生态中最值得信赖的批量导入工具。

我只是测试用的，所以在网上看了一遍文章，直接将它设为宽松模式：

解决mysql报错：1406, Data too long for column（多种方案）-CSDN博客

解决mysql报错：1406, Data too long for column

一、 所谓的"智能解析"，其实一点也不智能

二、 最隐蔽的坑：字段错位

三、 为什么还在用 LOAD DATA？

四、 血的教训：五个必须的检查步骤

五、 总结

一、所谓的"智能解析"，其实一点也不智能

二、最隐蔽的坑：字段错位

三、为什么还在用 LOAD DATA？

四、血的教训：五个必须的检查步骤

五、总结