一、IO的核心概念
数据存储的问题:程序运行时数据默认存储在内存中,内存存储是临时的,程序重启后数据会丢失,无法实现持久化。
持久化:将数据从内存传输到硬盘等外部存储设备的过程,是IO的核心目的。
流(Stream):内存与存储设备之间传输数据的通道/管道,数据借助流完成读写传输,类比水库通过管道向脸盆输水的过程。
二、IO流的分类
IO流可从方向、操作单位、功能三个维度划分:
- 按传输方向(以JVM为参照物)
输入流:将存储设备中的数据读取到内存中。
输出流:将内存中的数据写入到存储设备中。
- 按操作单位
字节流:以字节为单位传输数据,可操作所有类型的文件,比如文本、图片、音频、视频等。
字符流:以字符为单位传输数据,仅能操作文本类型的文件,像.java、.txt、.html、.c等可通过记事本打开的文件;.class、.mp3、.mp4等非文本文件无法用字符流操作。
- 按功能
节点流:具备基本的读写功能,直接与数据源或目标设备交互。
过滤流:在节点流的基础上扩展功能,增强IO操作的能力。
三、过滤流之对象流
- 核心类
ObjectOutputStream和ObjectInputStream是典型的过滤流,在节点流基础上扩展了这些功能:
增强了缓冲区功能;
支持读写8种基本数据类型和字符串;
支持读写对象,其中readObject()方法用于从流中读取一个对象,writeObject(Object obj)方法用于向流中写入一个对象。
- 对象序列化
定义:将对象放在流上进行传输的过程就是对象序列化。
要求:
参与序列化的对象对应的类,必须实现java.io.Serializable接口;
被transient修饰的属性,不会参与对象序列化;
如果对象的属性是自定义类型的对象,那么该自定义类也必须是可序列化的;
如果对集合进行对象序列化,要保证集合中的所有元素都可序列化。
文件尾部标识:读取对象时如果抛出java.io.EOFException异常,就表示文件已经读取到尾部。
四、常见字符编码方式
ASCII:美国信息交换标准编码,是基础的字符编码方式。
ISO8859-1:针对西欧语言设计的编码。
GB2312:早期的简体中文字符编码,覆盖的汉字范围有限。
GBK:常用的简体中文字符编码,兼容GB2312且扩展了更多汉字。
Big5:主要在台湾地区使用的繁体中文字符编码。
UTF-8:底层基于Unicode编码形式,会根据字符实际的字节数进行动态编码,是目前主流的通用编码方式。