编码,解码

一.标准ASCll字符集

标准ASCll 字符集使用一个字节存储一个字符,首尾是0

二.GBK字符集

GBK中一个中文字符编码成两个字节的形式存储,一个英文字母编码成一个字节的形式存储

对于 汉字中夹英文的,GBK规定:汉字的第一个字节的第一位必须是1

三.Unicode字符集

UTF-32 :4个字节表示一个字符,有点奢侈

UTF-8:采取可变长编码方案,共分为四个长度区,1个字节,2个字节,3个字节,4个字节

英文字符,数字等只占1个字节,汉字字符占3个字节

汉字在UTF-8编码中占3个字节,第一个字节必须以1110开头,第二,第三个字节必须以10开头

这样就可以区分哪个是汉字了。

UTF-8编码相对于GBK编码的优势主要包括以下几点:

  1. 全球通用:UTF-8是一种可变长度的编码方式,可以用来表示世界上几乎所有的书写语言。这使得UTF-8成为了一种通用的编码标准,无论在哪个地区或国家使用,都可以保证正确的字符编码。相比之下,GBK编码主要用于简体中文的编码,其适用范围相对较小。
  2. 兼容性好:UTF-8编码兼容ASCII编码,即所有ASCII编码的字符在UTF-8编码中与原样保持一致。这使得在处理英文和已经使用UTF-8编码的文本时,不需要进行额外的编码转换。而GBK编码则不具备这样的兼容性。
  3. 易于维护:UTF-8编码的字符在文本编辑器中可以正常显示,无需进行额外的转码操作。这使得在处理多语言文本时,UTF-8编码更加易于维护和编辑。而GBK编码则需要经常进行编码转换,增加了维护的难度。
  4. 支持多语言:UTF-8编码可以表示多种语言字符,包括中文、英文、日文、韩文等等。这使得UTF-8成为了一种广泛使用的国际编码标准。而GBK编码主要用于简体中文的编码,对于其他语言的支持则较为有限。

总之,UTF-8编码相对于GBK编码具有更好的全球通用性、兼容性、易维护性和对多语言字符的支持能力,因此在大多数情况下,推荐使用UTF-8编码来处理文本数据。

字符编码时使用的字符集,和解码时使用的字符集必须一致,否则会出现乱码

四.编码,解码

package org.example;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class day04 {
    public static void main(String[] args) throws UnsupportedEncodingException {
        //编码
        String s = "wm在一起";
        final byte[] bytes = s.getBytes(); //默认按照平台字符集(UTF-8)编码
        System.out.println(Arrays.toString(bytes));
        //按照指定字符集编码
        final byte[] bytes1 = s.getBytes("GBK");
        System.out.println(Arrays.toString(bytes1));
        //解码
        final String s1 = new String(bytes);//默认按照平台字符集(UTF-8)解码
        System.out.println(s1);
        final String s2 = new String(bytes1,"GBK");
        System.out.println(s2);


    }
}

第一行中使用UTF-8编码,所以汉字占3个字节并且每个字节以1开头,所以是负数

第二行中使用GBK编码,汉字占2个字节并且每个字节以1开头,所以是负数

相关推荐
無爲謂5 天前
1分钟解决Excel打开CSV文件出现乱码问题
utf-8·excel·csv·ansi
red_redemption20 天前
自由学习记录(8)
java·c++·学习·字符集·file·string
无聊达6122 个月前
使用python按拼音归类GBK编码表中的所有汉字
python·gbk·gb2312
DeepAlchemy3 个月前
PHP网页下的注入原理
php·字符集·注入·特殊字符·应用安全
Mint64 个月前
深入解析Java和Go语言中String与byte数组的转换原理
java·utf-8·golang·unicode·string·rune·byte
Mint65 个月前
为什么Java默认使用UTF-16,Golang默认使用UTF-8呢?
java·开发语言·字符编码·utf-8·golang·utf-16·历史原因
Mint65 个月前
计算机里的unicode编码和UTF-8的关系
字符编码·utf-8·字符集·字符·ascii
%d%d25 个月前
常见的几种编码方式
开发语言·c++·utf-8·编码·中文
源代码•宸7 个月前
高效解决Visual Studio Code中文乱码问题
utf-8·经验分享·中文乱码·visual studio code·gbk
Amd7947 个月前
深入理解中文编码:原理、应用与实践
字符集·中文编码·未来趋势·安全加密·转换技术·存储处理·编码标准