Java编码

Java编码问题

  1. Unicode与码点

所谓Unicode就是全世界的字符字典,也就是把字符给一个编号,这个编码就是码点。比如

  1. 编码

由于这种分配的编码无论从占用空间角度,还是读取速度,以及逻辑划分角度,都不是完善。所以出现了计算机编码,就是把每一个字符分配一个二进制的数字来表示。比如采用hafman编码,这种可以大大的节省存储空间,现代的压缩逻辑有的就是这样。

  • 采用utf-8编码,是一种边长编码,就是不同的字符占用的字节数目是不同的,一般来说ascii码占用1个字节,中文字符占用三个字节,还有特殊字符占用4个字节等等。
  • 采用utf-16编码,一般每一个字符都占用两个字节 ,但是对于字符串来说,会存在字节顺序标记(Byte Order Mark,BOM)。BOM 是一个特殊的Unicode字符(U+FEFF),用于指示文本的字节顺序(大端或小端),占用两个字节。所以一般会在总字符字节长度上在加上2。
  1. 对应的实验如下
java 复制代码
package com.inspur;

import java.io.UnsupportedEncodingException;
import java.nio.charset.StandardCharsets;
import java.util.List;
import java.util.stream.Collectors;

/**
 * @author: Zekun Fu
 * @date: 2023/9/30 20:43
 * @Description:
 */
public class Main5 {
    public static void main(String[] s) throws UnsupportedEncodingException {

        // 10 然后一个结尾字符'/0'
        String str = "Hello, 世界! 所有字符都是一样的";
        System.out.println(str.length());

        // 获取字符串的UTF-16字节数组
        byte[] utf16Bytes = str.getBytes(StandardCharsets.UTF_16);
        System.out.println(utf16Bytes.length);

        int len = 0;
        // 遍历字节数组,计算每个字符所占用的字节数
        for (char c : str.toCharArray()) {
            String t = ("" + c);
            len = t.getBytes(StandardCharsets.UTF_16).length;
            System.out.println("字符: " + t  + ", 字节数: " + len);
        }
        // 遍历字符串的每个码点
        for (int i = 0; i < str.length(); i++) {
            int codePoint = str.codePointAt(i);
            System.out.println("\"" + str.charAt(i) + "\"的码点:" + codePoint);
        }
    }
}
  1. 结果
相关推荐
叫我:松哥2 分钟前
基于Flask框架开发的二手房数据分析与推荐管理平台,集成大数据分析、机器学习预测和智能推荐技术
大数据·python·深度学习·机器学习·数据分析·flask
星火开发设计2 分钟前
C++ 分支结构:if-else 与 switch-case 的用法与区别
开发语言·c++·学习·算法·switch·知识·分支
qq_406176145 分钟前
深耕JS防抖与节流:从原理到工程化实践的全方位指南
开发语言·php
2301_797312269 分钟前
学习Java40天
java·开发语言·学习
Coder_Boy_9 分钟前
基于SpringAI的在线考试系统-DDD(领域驱动设计)核心概念及落地架构全总结
java·大数据·人工智能·spring boot·架构·ddd·tdd
Two_brushes.10 分钟前
C++ 常见特殊类的设计(含有单例模式)
开发语言·c++
不会c嘎嘎11 分钟前
QT -- 窗口
开发语言·qt
LawrenceLan13 分钟前
Flutter 零基础入门(二十一):Container、Padding、Margin 与装饰
开发语言·前端·flutter·dart
weixin_4404016915 分钟前
Win11 系统 Anaconda 下载+conda命令+Jupyter Notebook+VS Code
ide·python·jupyter·conda
知乎的哥廷根数学学派17 分钟前
基于卷积特征提取和液态神经网络的航空发动机剩余使用寿命预测算法(python)
人工智能·pytorch·python·深度学习·神经网络·算法