【数据库知识】MySQL 数据类型详解：选型指南与实战最佳实践

MySQL 数据类型详解：选型指南与实战最佳实践

- 一、整数类型（精确数值）
- - [📊 类型对比表](#📊 类型对比表)
  - [✅ 使用原则](#✅ 使用原则)
- 二、浮点与定点数（小数）
- - [🔥 核心区别：精度 vs 性能](#🔥 核心区别：精度 vs 性能)
  - [💰 金融场景血泪教训](#💰 金融场景血泪教训)
  - [📏 DECIMAL 参数选择](#📏 DECIMAL 参数选择)
- 三、字符串类型
- - [📊 CHAR vs VARCHAR 对比](#📊 CHAR vs VARCHAR 对比)
  - [✅ 最佳实践](#✅ 最佳实践)
  - [🌐 字符集与排序规则](#🌐 字符集与排序规则)
  - [📦 大文本处理](#📦 大文本处理)
- 四、时间类型
- - [📊 时间类型对比](#📊 时间类型对比)
  - [⚠️ TIMESTAMP 的致命陷阱](#⚠️ TIMESTAMP 的致命陷阱)
  - [✅ 最佳实践](#✅ 最佳实践)
- 五、特殊类型
- - [🔑 ENUM / SET（谨慎使用！）](#🔑 ENUM / SET（谨慎使用！）)
  - [🗃️ JSON 类型（MySQL 5.7+）](#🗃️ JSON 类型（MySQL 5.7+）)
  - [🌍 空间类型（GIS）](#🌍 空间类型（GIS）)
- 六、选型决策树（实战指南）
- - [🌟 通用原则](#🌟 通用原则)
  - [📋 决策流程图](#📋 决策流程图)
  - [📊 常见场景推荐表](#📊 常见场景推荐表)
- 七、避坑指南（血泪经验）
- - [❌ 坑1：用 VARCHAR(255) 存所有字符串](#❌ 坑1：用 VARCHAR(255) 存所有字符串)
  - [❌ 坑2：用 INT 存手机号](#❌ 坑2：用 INT 存手机号)
  - [❌ 坑3：用 DATETIME 存 Unix 时间戳](#❌ 坑3：用 DATETIME 存 Unix 时间戳)
  - [❌ 坑4：TEXT 字段加索引](#❌ 坑4：TEXT 字段加索引)
- 八、高级技巧
- - [🔍 存储空间计算](#🔍 存储空间计算)
  - [🚀 性能影响](#🚀 性能影响)
- 总结：黄金法则

选择合适的数据类型是数据库设计的基石。错误的选择会导致：

❌ 存储空间浪费（10倍+膨胀）

❌ 查询性能下降（索引效率低）

❌ 精度丢失（金融计算灾难）

❌ 扩展性受限（后期难以修改）

本文将从 整数、浮点、字符串、时间、JSON/空间 五大类，结合存储原理、使用场景、避坑指南，助你做出最优选择。

一、整数类型（精确数值）

📊 类型对比表

类型	字节	有符号范围	无符号范围	典型场景
`TINYINT`	1	-128 ~ 127	0 ~ 255	状态标志（0/1）、小枚举
`SMALLINT`	2	-32,768 ~ 32,767	0 ~ 65,535	小计数器、端口号
`MEDIUMINT`	3	-8M ~ 8M	0 ~ 16M	中等ID、IP地址（转整数）
`INT`	4	-21亿 ~ 21亿	0 ~ 42亿	主键ID、用户ID（推荐）
`BIGINT`	8	±9.2e18	0 ~ 1.8e19	超大ID、毫秒时间戳

✅ 使用原则

主键首选 INT UNSIGNED 或 BIGINT UNSIGNED
- 自增ID用 INT UNSIGNED（42亿足够大多数业务）
- 分布式系统（如Snowflake ID）必须用 BIGINT

避免过度设计

sql 复制代码

-- ❌ 错误：用户状态用 BIGINT
status BIGINT DEFAULT 0; 

-- ✅ 正确：用 TINYINT
status TINYINT NOT NULL DEFAULT 0 COMMENT '0-正常,1-禁用';

显示宽度 INT(11) 是历史遗留！
- INT(1) 和 INNODB(11) 存储完全相同！
- 仅影响 ZEROFILL 显示（不推荐使用）

二、浮点与定点数（小数）

🔥 核心区别：精度 vs 性能

类型	存储方式	精度	适用场景
`FLOAT`	IEEE 754 单精度	≈7位	科学计算、传感器数据
`DOUBLE`	IEEE 754 双精度	≈15位	高精度科学计算
`DECIMAL(M,D)`	字符串存储	精确	金融、货币、会计

💰 金融场景血泪教训

sql 复制代码

-- ❌ 灾难：用 FLOAT 存金额
CREATE TABLE orders (
    amount FLOAT  -- 0.1 + 0.2 = 0.30000000000000004!
);

-- ✅ 正确：用 DECIMAL
CREATE TABLE orders (
    amount DECIMAL(10,2) NOT NULL  -- 10位总长，2位小数
);

📏 DECIMAL 参数选择

M（总位数） ：根据业务最大值确定
- 人民币：DECIMAL(13,2)（万亿级）
- 比特币：DECIMAL(16,8)（支持 8 位小数）
D（小数位） ：根据精度要求
- 货币：通常 2 位（美元/人民币）
- 加密货币：可能需 8 位

⚠️ 注意：DECIMAL 存储开销 = (M+2)/2 字节（每 9 位数字占 4 字节）

三、字符串类型

📊 CHAR vs VARCHAR 对比

特性	`CHAR(N)`	`VARCHAR(N)`
存储	固定长度（不足补空格）	可变长度（+1~2字节长度头）
最大长度	255 字节	65,535 字节
性能	读快（无长度计算）	写快（节省空间）
适用场景	固定长度值（MD5、UUID、国家码）	可变长度文本（用户名、描述）

✅ 最佳实践

sql 复制代码

-- ✅ 固定长度用 CHAR
country_code CHAR(2) NOT NULL,  -- 如 'CN', 'US'
md5_hash CHAR(32) NOT NULL,

-- ✅ 可变长度用 VARCHAR
username VARCHAR(50) NOT NULL,
description VARCHAR(255),

-- ❌ 避免过度分配
email VARCHAR(255)  -- 实际邮箱很少超 100 字符

🌐 字符集与排序规则

utf8mb4 是唯一选择（支持 emoji 和完整 Unicode）
排序规则 ：
- utf8mb4_general_ci：快但不准确（已过时）
- utf8mb4_unicode_ci：标准 Unicode 排序（推荐）
- utf8mb4_0900_ai_ci：MySQL 8.0+ 默认（更准确）

📦 大文本处理

类型	最大长度	适用场景
`TINYTEXT`	255 字节	短备注
`TEXT`	64KB	文章内容、日志
`MEDIUMTEXT`	16MB	长文档
`LONGTEXT`	4GB	超大文本（谨慎使用）

💡 重要：TEXT 类型不能有默认值 ，且会影响 InnoDB 行存储（可能存到溢出页）

四、时间类型

📊 时间类型对比

类型	字节	范围	时区	适用场景
`DATE`	3	1000-9999	无	生日、日期
`TIME`	3	-838:59:59 ~ 838:59:59	无	时长、时间段
`DATETIME`	5~8	1000-9999	无	通用时间戳（推荐）
`TIMESTAMP`	4	1970-2038	自动转换	记录创建/更新时间

⚠️ TIMESTAMP 的致命陷阱

范围限制：2038 年后溢出（Y2038 问题）
时区依赖：存储时转 UTC，读取时转当前时区
自动更新 ：DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP

✅ 最佳实践

sql 复制代码

-- ✅ 通用时间用 DATETIME（无时区问题）
created_at DATETIME(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3),  -- 毫秒精度

-- ✅ 需要自动记录用 TIMESTAMP（但注意 2038 问题）
updated_at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP;

💡 精度扩展 ：MySQL 5.6.4+ 支持微秒（DATETIME(6)）

五、特殊类型

🔑 ENUM / SET（谨慎使用！）

sql 复制代码

-- ENUM：存储为 tinyint，节省空间
status ENUM('pending','approved','rejected') NOT NULL;

-- SET：多选（最多 64 个值）
permissions SET('read','write','execute') NOT NULL;

优点：存储高效（ENUM 用 1 字节存 255 个值）
缺点：

修改值需 ALTER TABLE（锁表！）
应用层耦合（SQL 直接写字符串值）
替代方案：用 TINYINT + 应用常量

🗃️ JSON 类型（MySQL 5.7+）

sql 复制代码

-- 存储灵活结构
user_profile JSON NOT NULL;

-- 查询示例
SELECT * FROM users 
WHERE JSON_EXTRACT(user_profile, '$.age') > 18;

适用场景：

配置信息（结构不固定）
日志详情（辅助查询）
不适合：高频查询字段（无法高效索引）

💡 优化：对 JSON 字段创建函数索引（MySQL 8.0+）
sql 复制代码
CREATE INDEX idx_age ON users ((CAST(user_profile->'$.age' AS SIGNED)));

🌍 空间类型（GIS）

POINT, LINESTRING, POLYGON 等
用于地理信息系统（LBS 应用）
需配合空间索引（R-Tree）

六、选型决策树（实战指南）

🌟 通用原则

够用就好：最小满足业务需求的类型
避免 NULL ：用 NOT NULL + 默认值（减少存储开销）
统一规范：团队约定类型使用标准

📋 决策流程图

graph TD A[需要存什么数据？] --> B{是数字吗？} B -->|是| C{需要小数？} C -->|是| D{需要精确计算？} D -->|是| E[DECIMAL] D -->|否| F[FLOAT/DOUBLE] C -->|否| G{范围多大？} G -->|< 255| H[TINYINT] G -->|< 65K| I[SMALLINT] G -->|< 42亿| J[INT] G -->|更大| K[BIGINT] B -->|否| L{是文本吗？} L -->|是| M{长度固定？} M -->|是| N[CHAR] M -->|否| O{长度<255？} O -->|是| P[VARCHAR] O -->|否| Q[TEXT/MEDIUMTEXT] L -->|否| R{是时间？} R -->|是| S{需要时区？} S -->|是| T[TIMESTAMP] S -->|否| U[DATETIME]

📊 常见场景推荐表

业务字段	推荐类型	说明
用户ID	`BIGINT UNSIGNED`	分布式ID兼容
订单金额	`DECIMAL(10,2)`	精确货币计算
用户名	`VARCHAR(50)`	足够存下邮箱/手机号
邮箱	`VARCHAR(100)`	实际最大长度约 80
手机号	`CHAR(11)`	固定11位（中国）
创建时间	`DATETIME(3)`	毫秒精度，无时区问题
状态标志	`TINYINT`	0/1 或小枚举
商品描述	`TEXT`	可能较长
用户配置	`JSON`	结构灵活

七、避坑指南（血泪经验）

❌ 坑1：用 VARCHAR(255) 存所有字符串

后果：InnoDB 行大小超限（65535 字节），导致建表失败
解法：按实际需求分配（邮箱 VARCHAR(100)，标题 VARCHAR(100)）

❌ 坑2：用 INT 存手机号

后果：以 0 开头的号码被截断（如 0123456789 → 123456789）
解法：用 CHAR(11)（中国）或 VARCHAR(15)（国际）

❌ 坑3：用 DATETIME 存 Unix 时间戳

后果：丧失日期函数能力（DATE_ADD, YEAR() 等）
解法：直接用 DATETIME，应用层转换

❌ 坑4：TEXT 字段加索引

后果：MySQL 只能索引前 N 字符（默认 767 字节），效果差
解法：高频查询字段拆到独立列，或用前缀索引

八、高级技巧

🔍 存储空间计算

行大小估算 ：SUM(各字段字节) + NULL 位图 + 行头

工具：用 PROCEDURE ANALYSE() 分析现有数据分布

sql 复制代码

SELECT * FROM users PROCEDURE ANALYSE(16,256);
-- 输出建议的最优类型

🚀 性能影响

索引效率 ：INT > CHAR(10) > VARCHAR(50) > TEXT
JOIN 性能：关联字段类型必须一致（避免隐式转换）

总结：黄金法则

🔑 "用最小的精确类型满足业务需求"

数字：整数用 INT，金钱用 DECIMAL

文本：固定用 CHAR，可变用 VARCHAR，长文本用 TEXT

时间：通用用 DATETIME，自动记录用 TIMESTAMP（注意2038）

特殊：灵活结构用 JSON，地理信息用空间类型

记住：好的数据类型设计，能让数据库性能提升 10 倍，存储成本降低 50%！