一.标准ASCll字符集
标准ASCll 字符集使用一个字节存储一个字符,首尾是0
二.GBK字符集
GBK中一个中文字符编码成两个字节的形式存储,一个英文字母编码成一个字节的形式存储
对于 汉字中夹英文的,GBK规定:汉字的第一个字节的第一位必须是1
三.Unicode字符集
UTF-32 :4个字节表示一个字符,有点奢侈
UTF-8:采取可变长编码方案,共分为四个长度区,1个字节,2个字节,3个字节,4个字节
英文字符,数字等只占1个字节,汉字字符占3个字节
汉字在UTF-8编码中占3个字节,第一个字节必须以1110开头,第二,第三个字节必须以10开头
这样就可以区分哪个是汉字了。
UTF-8编码相对于GBK编码的优势主要包括以下几点:
- 全球通用:UTF-8是一种可变长度的编码方式,可以用来表示世界上几乎所有的书写语言。这使得UTF-8成为了一种通用的编码标准,无论在哪个地区或国家使用,都可以保证正确的字符编码。相比之下,GBK编码主要用于简体中文的编码,其适用范围相对较小。
- 兼容性好:UTF-8编码兼容ASCII编码,即所有ASCII编码的字符在UTF-8编码中与原样保持一致。这使得在处理英文和已经使用UTF-8编码的文本时,不需要进行额外的编码转换。而GBK编码则不具备这样的兼容性。
- 易于维护:UTF-8编码的字符在文本编辑器中可以正常显示,无需进行额外的转码操作。这使得在处理多语言文本时,UTF-8编码更加易于维护和编辑。而GBK编码则需要经常进行编码转换,增加了维护的难度。
- 支持多语言:UTF-8编码可以表示多种语言字符,包括中文、英文、日文、韩文等等。这使得UTF-8成为了一种广泛使用的国际编码标准。而GBK编码主要用于简体中文的编码,对于其他语言的支持则较为有限。
总之,UTF-8编码相对于GBK编码具有更好的全球通用性、兼容性、易维护性和对多语言字符的支持能力,因此在大多数情况下,推荐使用UTF-8编码来处理文本数据。
字符编码时使用的字符集,和解码时使用的字符集必须一致,否则会出现乱码
四.编码,解码
package org.example;
import java.io.UnsupportedEncodingException;
import java.util.Arrays;
public class day04 {
public static void main(String[] args) throws UnsupportedEncodingException {
//编码
String s = "wm在一起";
final byte[] bytes = s.getBytes(); //默认按照平台字符集(UTF-8)编码
System.out.println(Arrays.toString(bytes));
//按照指定字符集编码
final byte[] bytes1 = s.getBytes("GBK");
System.out.println(Arrays.toString(bytes1));
//解码
final String s1 = new String(bytes);//默认按照平台字符集(UTF-8)解码
System.out.println(s1);
final String s2 = new String(bytes1,"GBK");
System.out.println(s2);
}
}
第一行中使用UTF-8编码,所以汉字占3个字节并且每个字节以1开头,所以是负数
第二行中使用GBK编码,汉字占2个字节并且每个字节以1开头,所以是负数