C# 关于Encoding编码 举例UTF8

UTF-8编码中,一个字符可能由一个或多个字节组成。每个字节的前几位用于指示该字符需要多少字节来表示。具体来说,UTF-8编码使用以下规则:

如果一个字节的最高位是0,那么它表示一个ASCII字符,并且该字节就是该字符的完整表示。

如果一个字节以110开头,它表示这是一个两字节字符的第一个字节。

如果一个字节以1110开头,它表示这是一个三字节字符的第一个字节。

如果一个字节以11110开头,它表示这是一个四字节字符的第一个字节。

在你提供的byte[] bb数组中:

csharp 复制代码
byte[] bb = { 228, 189, 160, 229, 165, 189 };

228(二进制表示为11100100)是以1110开头的,所以它表示一个三字节字符 的第一个字节。
229(二进制表示为11100101)同样是以1110开头的,也表示一个三字节字符 的第一个字节。

在你的数组中,228229都是各自三字节UTF-8字符序列的开始。每个这样的序列都包含三个字节

其中第一个字节表示字符需要多少字节,而后面的字节包含字符的实际编码。

故要正确解码这些字节序列,你需要以三个字节为一组来解读它们。例如:

228, 189, 160 这三个字节一起表示一个UTF-8编码的字符。
229, 165, 189 这三个字节一起表示另一个UTF-8编码的字符。

当你使用Encoding.UTF8.GetString(bb)时,.NET FrameworkUTF-8解码器会识别这些字节序列,并将它们转换回对应的Unicode字符,然后这些字符会被组合成一个字符串。

在你的例子中,228, 189, 160 对应的Unicode字符是,而229, 165, 189 对应的Unicode字符是。所以,当你显示这个字符串时,你会看到"中文"。

简而言之,228229UTF-8编码中的作用是标识三字节字符序列的开始。它们自身并不直接对应任何字符,而是与跟随它们的字节一起,共同表示一个特定的Unicode字符。

注意:

csharp 复制代码
1byte = 8bit
相关推荐
★YUI★6 分钟前
学习游戏制作记录(玩家掉落系统,删除物品功能和独特物品)8.17
java·学习·游戏·unity·c#
谷宇.44 分钟前
【Unity3D实例-功能-拔枪】角色拔枪(二)分割上身和下身
游戏·unity·c#·游戏程序·unity3d·游戏开发·游戏编程
LZQqqqqo1 小时前
C# 中 ArrayList动态数组、List<T>列表与 Dictionary<T Key, T Value>字典的深度对比
windows·c#·list
Dm_dotnet4 小时前
Stylet启动机制详解:从Bootstrap到View显示
c#
三千道应用题5 小时前
WPF&C#超市管理系统(6)订单详情、顾客注册、商品销售排行查询和库存提示、LiveChat报表
开发语言·c#·wpf
唐青枫10 小时前
别滥用 Task.Run:C# 异步并发实操指南
c#·.net
我好喜欢你~17 小时前
C#---StopWatch类
开发语言·c#
一阵没来由的风20 小时前
拒绝造轮子(C#篇)ZLG CAN卡驱动封装应用
c#·can·封装·zlg·基础封装·轮子
一枚小小程序员哈1 天前
基于微信小程序的家教服务平台的设计与实现/基于asp.net/c#的家教服务平台/基于asp.net/c#的家教管理系统
后端·c#·asp.net
Eternity_GQM1 天前
【Word VBA Zotero 引用宏错误分析与改正指南】【解决[21–23]参考文献格式插入超链接问题】
开发语言·c#·word