编码，解码 - 技术栈

一.标准ASCll字符集

标准ASCll 字符集使用一个字节存储一个字符，首尾是0

二.GBK字符集

GBK中一个中文字符编码成两个字节的形式存储，一个英文字母编码成一个字节的形式存储

对于汉字中夹英文的，GBK规定：汉字的第一个字节的第一位必须是1

三.Unicode字符集

UTF-32 :4个字节表示一个字符，有点奢侈

UTF-8:采取可变长编码方案，共分为四个长度区，1个字节，2个字节，3个字节，4个字节

英文字符，数字等只占1个字节，汉字字符占3个字节

汉字在UTF-8编码中占3个字节，第一个字节必须以1110开头，第二，第三个字节必须以10开头

这样就可以区分哪个是汉字了。

UTF-8编码相对于GBK编码的优势主要包括以下几点：

全球通用：UTF-8是一种可变长度的编码方式，可以用来表示世界上几乎所有的书写语言。这使得UTF-8成为了一种通用的编码标准，无论在哪个地区或国家使用，都可以保证正确的字符编码。相比之下，GBK编码主要用于简体中文的编码，其适用范围相对较小。

兼容性好：UTF-8编码兼容ASCII编码，即所有ASCII编码的字符在UTF-8编码中与原样保持一致。这使得在处理英文和已经使用UTF-8编码的文本时，不需要进行额外的编码转换。而GBK编码则不具备这样的兼容性。

易于维护：UTF-8编码的字符在文本编辑器中可以正常显示，无需进行额外的转码操作。这使得在处理多语言文本时，UTF-8编码更加易于维护和编辑。而GBK编码则需要经常进行编码转换，增加了维护的难度。

支持多语言：UTF-8编码可以表示多种语言字符，包括中文、英文、日文、韩文等等。这使得UTF-8成为了一种广泛使用的国际编码标准。而GBK编码主要用于简体中文的编码，对于其他语言的支持则较为有限。

总之，UTF-8编码相对于GBK编码具有更好的全球通用性、兼容性、易维护性和对多语言字符的支持能力，因此在大多数情况下，推荐使用UTF-8编码来处理文本数据。

字符编码时使用的字符集，和解码时使用的字符集必须一致，否则会出现乱码

四.编码，解码

复制代码

package org.example;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class day04 {
    public static void main(String[] args) throws UnsupportedEncodingException {
        //编码
        String s = "wm在一起";
        final byte[] bytes = s.getBytes(); //默认按照平台字符集（UTF-8）编码
        System.out.println(Arrays.toString(bytes));
        //按照指定字符集编码
        final byte[] bytes1 = s.getBytes("GBK");
        System.out.println(Arrays.toString(bytes1));
        //解码
        final String s1 = new String(bytes);//默认按照平台字符集（UTF-8）解码
        System.out.println(s1);
        final String s2 = new String(bytes1,"GBK");
        System.out.println(s2);


    }
}

第一行中使用UTF-8编码，所以汉字占3个字节并且每个字节以1开头，所以是负数

第二行中使用GBK编码，汉字占2个字节并且每个字节以1开头，所以是负数