解决mysql报错:1406, Data too long for column

最近在往 MySQL 里导入一张 1000 万行的 tb_sku表时,我算是彻底领教了 LOAD DATA这个工具的"脾气"。原本以为这是个能救命的神器,结果差点被它整崩溃。今天就把这次的血泪史总结一下,希望能帮大家避雷。

一、 所谓的"智能解析",其实一点也不智能

首先最大的误区就是:千万别把 LOAD DATA当成智能解析工具。

我一开始天真地以为,CSV 里的 null字符串,MySQL 总会帮我转成 NULL吧?结果现实狠狠打了脸。在 tb_sku表中,status字段是 char(1),但 CSV 里写的是 nullLOAD DATA根本不会做语义判断,它直接把 'n', 'u', 'l', 'l'往字段里塞,直接导致 Data too long for column 'status'的错误。

结论一LOAD DATA只认 \NNULL,其他的 nullNULL统统是字符串。

二、 最隐蔽的坑:字段错位

这是我踩得最深的一个坑。报错永远指向 status字段,让我一度以为是 status的长度不够。但当我用 select * from tb_sku where id=9449\G;查看时才发现,真正的原因是字段错位

因为 CSV 里有些字段(比如 spec)包含了逗号,或者因为 null字符串占用了额外空间,导致整个数据流的列顺序向后偏移。MySQL 并不会告诉你"第 10 列有问题",而是等到最后一列 status发现装不下时,才抛出错误。

这就好比排队,前面的人多占了位置,最后一个人永远是被挤出去的那个。

三、 为什么还在用 LOAD DATA?

既然这么多坑,为什么不全用 INSERT?原因很简单:速度

在导入 1000 万行数据时,LOAD DATA INFILE的速度至少是单条 INSERT的 10 倍以上。对于海量数据迁移,它是唯一现实的选择。它不是不好用,而是它设计的初衷就是"在已知数据完全干净的前提下,提供最高吞吐量的写入"。

四、 血的教训:五个必须的检查步骤

经过这次折腾,我总结了使用 LOAD DATA前必须做的 5 项数据清洗检查,缺一不可:

  1. 检查分隔符是否唯一 :确保数据内容中不包含你使用的分隔符(如 ,|),否则必须用双引号包裹,或者更换分隔符。

  2. 检查列数一致性 :用 awk扫一遍文件,确保所有行的列数都等于表字段数,剔除脏数据。

  3. 规范化 NULL 值 :将所有的 null字符串替换为 \N,或者在 SQL 中使用 NULLIF()函数处理。

  4. 检查字段长度 :特别是 varchar类型的字段,防止超长字符串导致写入失败。

  5. 检查换行符 :如果是 Windows 环境下生成的文件,记得用 dos2unix处理,防止 \r\n引发解析异常。

五、 总结

LOAD DATA是一把双刃剑。它锋利无比,能帮你快速切开海量数据;但它也很笨重,没有任何容错能力。

如果你指望它能像 Excel 一样智能纠错,那你一定会失望。但如果你愿意花几分钟做一次数据清洗,它绝对是 MySQL 生态中最值得信赖的批量导入工具。

我只是测试用的,所以在网上看了一遍文章,直接将它设为宽松模式:

解决mysql报错:1406, Data too long for column(多种方案)-CSDN博客

相关推荐
我爱cope13 小时前
【Agent智能体4 | 智能体AI的应用】
数据库·人工智能·职场和发展
plainGeekDev13 小时前
Glide 该换了?Coil:Kotlin 时代的图片加载库
android·开源·kotlin
小a杰.13 小时前
Ascend C编程语言进阶:高性能算子开发技巧
android·c语言·开发语言
plainGeekDev14 小时前
Android内存面试题:OOM都解决不了,性能优化从何谈起?
android·面试·kotlin
知识分享小能手14 小时前
Flask入门学习教程,从入门到精通,数据库操作 — 知识点详解与案例代码(4)
数据库·学习·flask
我是一颗柠檬14 小时前
【MySQL全面教学】MySQL基础SQL语句Day3(2026年)
数据库·后端·sql·mysql·oracle
XS03010615 小时前
MyBatis动态SQL
数据库·sql·mybatis
MandalaO_O15 小时前
MyBatis 与 MySQL 执行流程
数据库·mysql·mybatis
JustNow_Man15 小时前
【opencode】安装使用daytona沙箱插件
android·java·javascript