字符与编码基础知识再研究

字符与编码基础知识介绍

字符是指用于书写、显示和存储信息的基本符号，例如字母、数字、标点符号和汉字等。计算机无法直接理解字符，它只能处理数字，因此需要一种方式将字符转换为数字表示，这种方式就是字符编码。

编码是一种将字符映射到数字的规则。不同的编码标准规定了字符与数字之间的对应关系。

Unicode 是一种全球通用的字符集标准。它为每个字符分配了一个唯一的编号，称为 码点（Code Point） 。例如：

Unicode 只是一个字符集，它不会直接规定如何存储字符。为了解决字符的存储和传输问题，出现了多种编码方式。

UTF（Unicode Transformation Format） 是 Unicode 的具体编码方式，包括：

UTF-8：
- 使用 1~4 个字节 编码一个字符。
- 英文等 ASCII 字符仅用 1 个字节表示。
- 中文、日文等字符通常用 3~4 个字节表示。
- 特点：节省空间且兼容 ASCII，是网络传输的首选。
UTF-16：
- 使用 2 或 4 个字节 编码一个字符。
- 常用字符用 2 字节，少数特殊字符用 4 字节。
- 特点：常用于 Windows 系统和 Java 等环境。
UTF-32：
- 使用固定 4 个字节 编码每个字符。
- 特点：查找和处理字符速度快，但占用内存较多。

在实际编程中，字符类型通常分为窄字符 和宽字符。

类型	编码单位	存储方式	典型编码	应用场景
窄字符 (char)	1 字节（8 位）	ASCII 或多字节编码（如 UTF-8）	ASCII、UTF-8、GBK 等	适合跨平台应用、网络传输、节省内存的场景
宽字符 (wchar_t)	2~4 字节	Unicode 编码（如 UTF-16、UTF-32）	UTF-16、UTF-32 等	适合多语言处理、复杂字符集和 Windows 平台开发

窄字符字符串（char） ：
- 通常使用 UTF-8 或 GBK 编码。
- 适合跨平台和节省内存的场景，例如网络通信和文本处理。
宽字符字符串（wchar_t） ：
- 通常使用 UTF-16 或 UTF-32 编码。
- 适合处理复杂字符集、国际化应用和 Windows 平台开发。

在 C/C++ 等语言中，经常使用指针来操作字符串。根据字符类型的不同，有不同的指针类型：

类型	窄字符指针	宽字符指针	通用字符指针
字符指针	`char` (LPSTR*)	`wchar_t` (LPWSTR*)	`TCHAR` (LPTSTR*)
常量字符指针	`const char` (LPCSTR*)	`const wchar_t` (LPCWSTR*)	`const TCHAR` (LPCTSTR*)
长字符指针	`char**`	`wchar_t**`	`TCHAR**`
常量长字符指针	`const char**`	`const wchar_t**`	`const TCHAR**`
指针常量	`char* const`	`wchar_t* const`	`TCHAR* const`
常量指针常量	`const char* const` (LPCSTR)	`const wchar_t* const` (LPCWSTR)	`const TCHAR* const` (LPCTSTR)