C# 关于Encoding编码 举例UTF8

UTF-8编码中,一个字符可能由一个或多个字节组成。每个字节的前几位用于指示该字符需要多少字节来表示。具体来说,UTF-8编码使用以下规则:

如果一个字节的最高位是0,那么它表示一个ASCII字符,并且该字节就是该字符的完整表示。

如果一个字节以110开头,它表示这是一个两字节字符的第一个字节。

如果一个字节以1110开头,它表示这是一个三字节字符的第一个字节。

如果一个字节以11110开头,它表示这是一个四字节字符的第一个字节。

在你提供的byte[] bb数组中:

csharp 复制代码
byte[] bb = { 228, 189, 160, 229, 165, 189 };

228(二进制表示为11100100)是以1110开头的,所以它表示一个三字节字符 的第一个字节。
229(二进制表示为11100101)同样是以1110开头的,也表示一个三字节字符 的第一个字节。

在你的数组中,228229都是各自三字节UTF-8字符序列的开始。每个这样的序列都包含三个字节

其中第一个字节表示字符需要多少字节,而后面的字节包含字符的实际编码。

故要正确解码这些字节序列,你需要以三个字节为一组来解读它们。例如:

228, 189, 160 这三个字节一起表示一个UTF-8编码的字符。
229, 165, 189 这三个字节一起表示另一个UTF-8编码的字符。

当你使用Encoding.UTF8.GetString(bb)时,.NET FrameworkUTF-8解码器会识别这些字节序列,并将它们转换回对应的Unicode字符,然后这些字符会被组合成一个字符串。

在你的例子中,228, 189, 160 对应的Unicode字符是,而229, 165, 189 对应的Unicode字符是。所以,当你显示这个字符串时,你会看到"中文"。

简而言之,228229UTF-8编码中的作用是标识三字节字符序列的开始。它们自身并不直接对应任何字符,而是与跟随它们的字节一起,共同表示一个特定的Unicode字符。

注意:

csharp 复制代码
1byte = 8bit
相关推荐
“抚琴”的人15 小时前
【机械视觉】C#+VisionPro联合编程———【六、visionPro连接工业相机设备】
c#·工业相机·visionpro·机械视觉
FAREWELL0007517 小时前
C#核心学习(七)面向对象--封装(6)C#中的拓展方法与运算符重载: 让代码更“聪明”的魔法
学习·c#·面向对象·运算符重载·oop·拓展方法
CodeCraft Studio17 小时前
Excel处理控件Spire.XLS系列教程:C# 合并、或取消合并 Excel 单元格
前端·c#·excel
勘察加熊人19 小时前
forms实现连连看
c#
hvinsion19 小时前
PPT助手:一款集计时、远程控制与多屏切换于一身的PPT辅助工具
c#·powerpoint·ppt·ppt助手·ppt翻页
weixin_3077791320 小时前
使用C#实现从Hive的CREATE TABLE语句中提取分区字段名和数据类型
开发语言·数据仓库·hive·c#
时光追逐者21 小时前
在 Blazor 中使用 Chart.js 快速创建数据可视化图表
开发语言·javascript·信息可视化·c#·.net·blazor
与火星的孩子对话1 天前
Unity3D开发AI桌面精灵/宠物系列 【三】 语音识别 ASR 技术、语音转文本多平台 - 支持科大讯飞、百度等 C# 开发
人工智能·unity·c#·游戏引擎·语音识别·宠物
response_L1 天前
国产系统统信uos和麒麟v10在线打开word给表格赋值
java·c#·word·信创·在线编辑
MasterNeverDown1 天前
Swagger2Md:让WebAPI文档生成变得轻松高效
c#