字符与编码基础知识再研究

字符与编码基础知识介绍

一、什么是字符?

字符是指用于书写、显示和存储信息的基本符号,例如字母、数字、标点符号和汉字等。计算机无法直接理解字符,它只能处理数字,因此需要一种方式将字符转换为数字表示,这种方式就是字符编码

二、什么是编码?

编码是一种将字符映射到数字的规则。不同的编码标准规定了字符与数字之间的对应关系。

  • 字符集:包含所有可能的字符及其对应的数字编号。例如,Unicode 就是一个统一的字符集,覆盖了全球绝大多数语言的字符。
  • 编码方式:定义如何将字符集中数字编号转换为计算机可识别的二进制数据。

三、Unicode 与 UTF 编码

1. Unicode

Unicode 是一种全球通用的字符集标准。它为每个字符分配了一个唯一的编号,称为 码点(Code Point) 。例如:

  • 字符 A 的 Unicode 码点是 U+0041
  • 字符 的 Unicode 码点是 U+4E2D

Unicode 只是一个字符集,它不会直接规定如何存储字符。为了解决字符的存储和传输问题,出现了多种编码方式。

2. UTF 编码

UTF(Unicode Transformation Format) 是 Unicode 的具体编码方式,包括:

  • UTF-8

    • 使用 1~4 个字节 编码一个字符。
    • 英文等 ASCII 字符仅用 1 个字节表示。
    • 中文、日文等字符通常用 3~4 个字节表示。
    • 特点:节省空间且兼容 ASCII,是网络传输的首选。
  • UTF-16

    • 使用 2 或 4 个字节 编码一个字符。
    • 常用字符用 2 字节,少数特殊字符用 4 字节。
    • 特点:常用于 Windows 系统和 Java 等环境。
  • UTF-32

    • 使用固定 4 个字节 编码每个字符。
    • 特点:查找和处理字符速度快,但占用内存较多。

四、窄字符与宽字符

在实际编程中,字符类型通常分为窄字符宽字符

类型 编码单位 存储方式 典型编码 应用场景
窄字符 (char) 1 字节(8 位) ASCII 或多字节编码(如 UTF-8) ASCII、UTF-8、GBK 等 适合跨平台应用、网络传输、节省内存的场景
宽字符 (wchar_t) 2~4 字节 Unicode 编码(如 UTF-16、UTF-32) UTF-16、UTF-32 等 适合多语言处理、复杂字符集和 Windows 平台开发
  • 窄字符字符串(char)

    • 通常使用 UTF-8GBK 编码。
    • 适合跨平台和节省内存的场景,例如网络通信和文本处理。
  • 宽字符字符串(wchar_t)

    • 通常使用 UTF-16UTF-32 编码。
    • 适合处理复杂字符集、国际化应用和 Windows 平台开发。

五、常用的字符指针与常量指针

在 C/C++ 等语言中,经常使用指针来操作字符串。根据字符类型的不同,有不同的指针类型:

类型 窄字符指针 宽字符指针 通用字符指针
字符指针 char* (LPSTR) wchar_t* (LPWSTR) TCHAR* (LPTSTR)
常量字符指针 const char* (LPCSTR) const wchar_t* (LPCWSTR) const TCHAR* (LPCTSTR)
长字符指针 char** wchar_t** TCHAR**
常量长字符指针 const char** const wchar_t** const TCHAR**
指针常量 char* const wchar_t* const TCHAR* const
常量指针常量 const char* const (LPCSTR) const wchar_t* const (LPCWSTR) const TCHAR* const (LPCTSTR)

六、总结

  1. 字符 是抽象的符号,计算机需要通过编码方式将其转换为数字进行存储和处理。
  2. Unicode 是一种字符集标准,用于统一表示世界上所有的字符。
  3. UTF-8、UTF-16、UTF-32 是 Unicode 的具体编码方式,针对不同场景提供不同的性能与空间效率。
  4. 窄字符 使用多字节编码,节省空间,适合英文等简单文本。
  5. 宽字符 使用 Unicode 编码,更适合多语言场景。
  6. 窄字符字符串 适合跨平台和节省内存的场景。
  7. 宽字符字符串 适合处理复杂字符集和 Windows 平台开发。
  8. 在编程中,使用指针操作字符串时,需要根据字符类型选择正确的指针类型。
相关推荐
心之伊始4 分钟前
MySQL EXPLAIN 执行计划实战:从 type、Extra 到慢 SQL 定位与优化
java·架构·源码分析·csdn
郝学胜_神的一滴24 分钟前
Qt 高级开发 026:QTabWidget御道,从筑基到化境
c++·qt
国科安芯26 分钟前
国科安芯推出商业航天级抗辐照全双工 RS485/422 收发器 ASC491S2Y
网络·分布式·单片机·架构·安全性测试
一切皆是因缘际会32 分钟前
AI智能新时代
数据结构·人工智能·ai·架构
apocelipes1 小时前
GNU GCC 多版本函数扩展
c语言·c++·linux编程
代码中介商1 小时前
C++完美转发与引用折叠全解析
开发语言·c++
雪度娃娃2 小时前
ASIO异步通信——多线程模型
开发语言·网络·c++·php
微三云、小叶2 小时前
新型消费积分商业模式拆解:盈利架构、衰减铸造模型与项目风控要点
架构·软件开发·商业模式·本地生活·商业思维·私域运营
SilentSamsara2 小时前
Python 微服务全链路:gRPC + 链路追踪 + 服务网格接入
开发语言·分布式·python·微服务·架构
candyTong2 小时前
Claude Code 的工具延迟加载机制
架构