【基础知识】ANSI、GB2312、UTF-8、Unicode、wchar_t 的含义和区别

下面是对 ANSI、GB2312、UTF-8、Unicode、wchar_t 的详细、系统性介绍，涵盖它们的定义、关系、区别与使用场景，特别针对 Windows 编程环境。

Unicode 不是一种编码，而是一个字符集标准。
它为世界上几乎所有的文字、符号、表情（emoji）分配一个唯一的编号，称为 码点（Code Point） 。
- 例如：
  - 拉丁字母 A → U+0041
  - 汉字 中 → U+4E2D
  - 表情 😊 → U+1F60A

📌 Unicode 是一切现代文本处理的基础。

Unicode 码点需要被编码成字节序列 才能存储或传输。这些编码方案统称 Unicode Transformation Format (UTF)。

编码	单位	特点	使用场景
UTF-8	1~4 字节/字符	- 兼容 ASCII（ASCII 字符仍占 1 字节）- 可变长度- 无字节序问题	Web（HTML/JSON）、Linux、跨平台文件、源代码
UTF-16	2 或 4 字节/字符	- 基本多文种平面（BMP）用 2 字节- 辅助平面（如 emoji）用"代理对"（4 字节）- 有字节序（LE/BE）	Windows 内核、Java、JavaScript 内部字符串
UTF-32	固定 4 字节/字符	- 简单直接，每个码点占 4 字节- 浪费空间	少用于存储，多用于内部处理

💡 在 Windows API 中：

CreateWindowW() 接受 UTF-16（通过 wchar_t*）

CreateWindowA() 接受本地 ANSI 编码（如 GBK）

📌 GB2312 已被 GBK （扩展至 21,000+ 汉字）和 GB18030（国家标准，兼容 Unicode）取代。

⚠️ 注意：这里的 "ANSI" 不是国际标准 ANSI 编码 ，而是 Windows 对"当前系统默认本地编码"的误称。

📌 当你在 VS 中创建"控制台程序"且未定义 UNICODE，默认使用 ANSI 编码。

平台	`sizeof(wchar_t)`	通常对应编码
Windows (MSVC)	2 字节	UTF-16
Linux / macOS (GCC)	4 字节	UTF-32

配合宏使用：

c 复制代码

#define UNICODE
#define _UNICODE
#include <windows.h>
// 此时 TCHAR = wchar_t, TEXT("...") = L"..."

⚠️ 跨平台时不要假设 wchar_t 是 UTF-16！

名称	类型	是否 Unicode？	字节长度	Windows 角色	是否推荐现代开发
Unicode	字符集标准	✅ 是	---	抽象基础	✅ 必须理解
UTF-8	编码方案	✅ 是	1~4	文件/Web 主流	✅ 强烈推荐
UTF-16	编码方案	✅ 是	2/4	Windows 内核内部编码	✅ Windows GUI 必用
GB2312	本地编码	❌ 否	2	旧中文系统	❌ 已过时
ANSI（Win）	本地编码（如 GBK）	❌ 否	1~2	兼容旧 API	⚠️ 仅用于兼容
wchar_t	C/C++ 类型	---	平台相关	Win: UTF-16 容器	✅ Windows 下安全使用

如有具体应用场景（如"如何读取 GBK 文件并转为 UTF-16 显示"），欢迎继续提问！