CSV Excel乱码问题 和 BOM标记

CSV Excel乱码问题 和 BOM标记

背景

在使用Java代码生成csv文件时,使用Notepad++/Sublime Text之类的文本编辑器打开是没有问题,但可视化效果不好,故而考虑使用Excel打开,可是却出现乱码问题。

注:后来在启动一个应用时,也遇到也个乱码问题,参考IDEA + Tomcat 8.5中文乱码解决过程,是某个HTML文件的编码问题。

BOM,Byte Order Mark,字节顺序标记,一种文件头部协议,存储在文件头部,用于标识文件编码。

BOM,是UTF编码方案里用于标识编码的标准标记,在UTF-16里本来是 FF FE,在UTF-8就变成 EF BB BF 。这个标记是可选的,因为UTF8字节没有顺序,所以它可以被用来检测一个字节流是否是UTF-8编码的。微软做这种检测,但有些软件不做这种检测,而把它当作正常字符处理。

微软在自己的UTF-8格式的文本文件之前加上 EF BB BF 三个字节, windows上面的notepad等程序就是根据这三个字节来确定一个文本文件是ASCII的还是UTF-8的,这只是微软暗自作的标记,其它平台上并没有对UTF-8文本文件做个这样的标记。

一个UTF-8文件可能有BOM,也可能没有BOM,区分的三种方法:

  • 用UltraEdit-32打开文件,切换到十六进制编辑模式,察看文件头部是否有EF BB BF
  • 用Dreamweaver打开,察看页面属性,看包括Unicode签名BOM前面是否有个勾
  • 用Windows的记事本打开,选择 "另存为",看文件的默认编码是UTF-8还是ANSI,如果是ANSI则不带BOM。
  • 如果使用UTF-8编码生成CSV文件,会发现CSV文件虽然可以用记事本打开,但是用Excel打开就会出现乱码。

解决

原理:Excel在读取csv时是通过读取文件头上的bom来识别编码的,如果文件头无bom信息,则默认按照unicode编码读取。(bom是微软定义的一种文件头部协定,存储在文件头部,存储内容就是标识文件编码的信息。)而生成csv的平台不一定遵循微软的bom协议,导致如果输出非unicode编码的csv文件(如utf-8),并且没有生成bom信息的话,Excel自动按照unicode编码读取,就会出现乱码问题。

解决:只需将非unicode编码的CSV文件,用文本编辑器(Notepad++)打开并转换为带bom的编码形式(具体编码方式随意),问题解决。

每次都是手动打开CSV文件,修改并转换编码,然后再保存,那不是很傻么?既然CSV文件是程序生成的,那怎么用程序解决这个乱码问题,让生成的CSV文件用Excel打开时不会出现乱码?

用hutool工具自带了bom识别,转换reader的方法可以解决

java 复制代码
BomReader bomReader = IoUtil.getBomReader(inputStream);

参考

相关推荐
IT毕设梦工厂1 分钟前
计算机毕业设计选题推荐-在线拍卖系统-Java/Python项目实战
java·spring boot·python·django·毕业设计·源码·课程设计
Ylucius35 分钟前
动态语言? 静态语言? ------区别何在?java,js,c,c++,python分给是静态or动态语言?
java·c语言·javascript·c++·python·学习
七夜zippoe1 小时前
分布式系统实战经验
java·分布式
是梦终空1 小时前
JAVA毕业设计176—基于Java+Springboot+vue3的交通旅游订票管理系统(源代码+数据库)
java·spring boot·vue·毕业设计·课程设计·源代码·交通订票
落落落sss1 小时前
sharding-jdbc分库分表
android·java·开发语言·数据库·servlet·oracle
码爸1 小时前
flink doris批量sink
java·前端·flink
Monodye2 小时前
【Java】网络编程:TCP_IP协议详解(IP协议数据报文及如何解决IPv4不够的状况)
java·网络·数据结构·算法·系统架构
一丝晨光2 小时前
逻辑运算符
java·c++·python·kotlin·c#·c·逻辑运算符
无名指的等待7123 小时前
SpringBoot中使用ElasticSearch
java·spring boot·后端
Tatakai253 小时前
Mybatis Plus分页查询返回total为0问题
java·spring·bug·mybatis