utf-8和utf-8 mb4区别

RainCurtainTeaCat2023-08-16 19:25

UTF-8（Unicode Transformation Format-8）和UTF-8MB4（UTF-8 Multibyte 4-byte）是字符编码方案，用于表示 Unicode 字符集中的字符。它们之间的主要区别在于编码范围。

UTF-8：UTF-8 是一种变长编码方式，可以用一个至四个字节来表示不同范围内的字符。大部分常用的字符可以使用一个字节表示，但某些罕见的字符需要使用多个字节进行编码。UTF-8 编码最多可以表示 Unicode 字符集中的 1,112,064 个字符。
UTF-8MB4：UTF-8MB4 是对 UTF-8 的扩展，它支持更广泛的字符集范围。UTF-8MB4 使用一到四个字节来表示不同范围内的字符，与 UTF-8 相比，它多了一些额外的字符表示范围。UTF-8MB4 可以表示 Unicode 字符集中的所有字符，包括一些罕见的、辅助平面的以及 Emoji 表情等。

一般情况下，当我们处理文字内容时，如数据库存储、网页显示等，建议使用 UTF-8 编码，因为 UTF-8 能够满足绝大多数的需求，而且它占用的空间相对较小。UTF-8MB4 则适用于需要支持更广泛字符集范围的场景，如存储包含 Emoji 表情的文本内容。

需要注意的是，UTF-8MB4 编码需要更多的存储空间和处理能力，因此在设计数据库时，如果不需要支持辅助平面字符或者 Emoji 表情等特殊字符，使用 UTF-8 编码通常是更常见的选择。

总结：