【C语言】--- 文件操作

文件操作

- [1. 为什么要使用文件](#1. 为什么要使用文件)
- [2. 什么是文件](#2. 什么是文件)
- - [2.1 程序文件](#2.1 程序文件)
  - [2.2 数据文件](#2.2 数据文件)
  - [2.3 文件名](#2.3 文件名)
- [3. 二进程文件和文本文件](#3. 二进程文件和文本文件)
- [4. 文件的打开和关闭](#4. 文件的打开和关闭)
- - [4.1 流和标准流](#4.1 流和标准流)
  - - 4.1.1流
    - 4.2.2标准流
  - [4.2 文件指针](#4.2 文件指针)
  - [4.3 打开和关闭操作](#4.3 打开和关闭操作)
- [5. 文件的顺序读写](#5. 文件的顺序读写)
- - [5.1 文件顺序读写函数](#5.1 文件顺序读写函数)
  - - [5.1.1 fgetc 和 fputc](#5.1.1 fgetc 和 fputc)
    - [5.1.2 fgets 和 fgetc](#5.1.2 fgets 和 fgetc)
    - [5.1.3 fscanf 和 fprintf](#5.1.3 fscanf 和 fprintf)
    - [5.1.4 fread 和 fwrite](#5.1.4 fread 和 fwrite)
    - [5.1.5 sscanf 和 sprintf](#5.1.5 sscanf 和 sprintf)
- [6. 文件的随机读写](#6. 文件的随机读写)
- - 6.1fseek
  - [6.2 ftell](#6.2 ftell)
  - [6.3 rwind](#6.3 rwind)
- [7. 文件读取结束的判定](#7. 文件读取结束的判定)
- - [7.1 feof](#7.1 feof)
- [8. 文件缓冲区](#8. 文件缓冲区)

1. 为什么要使用文件

使用文件的核心目的 就是为了持久化存储 ，如果没有文件，程序退出或者中途断电，数据就会丢失。当我们把数据放在文件（磁盘）中，就可以很好的做到持久化存储了。

内存（RAM）是易失性存储器 ，而磁盘是非易失性存储器。

2. 什么是文件

文件是有名字的数据块 ，磁盘（硬盘）上的数据是以"文件"的形式组织和存储的 ，文件就是操作系统用于管理和持久化保存数据的基本单位 。

从文件功能的角度 分类，文件分为：程序文件 和数据文件。

2.1 程序文件

程序文件 包括源程序文件 （后缀为.c）,⽬标文件 （windows环境后缀为.obj）,可执行程序（windows环境后缀为.exe）。

2.2 数据文件

数据文件的内容不⼀定是程序，而是程序运行时读写的数据，比如程序运行需要从中读取数据的文件，或者输出内容的文件。
本篇文章讨论的就是数据文件 。

如何理解数据文件 呢？例如：C语言的printf函数其实是把内容写入到和终端对应的标准输出文件中了，这里提到一个观点，一切皆文件，本篇文章不深入讨论这个话题，这里主要是关于文件概念和文件操作的讨论。

2.3 文件名

⼀个文件要有⼀个唯⼀的文件标识 ，以便用户识别和引用。
文件名 包含3部分：文件路径 +文件名主干 +文件后缀

例如： c:\code\test.txt
文件路径 ：C:\code
文件名主干 ：test
文件名后缀：.txt

为了方便起见，文件标识 常被称为文件名,这是一个广义的文件名。

3. 二进程文件和文本文件

根据数据文件 内容组织形式的不同，分为二进制文件 和文本文件 。
二进制文件 ：数据以二进制 的形式存储的文件。
文本文件 ：数据以字符的形式存储的文件。

文本文件人类可以可读，二进制文件不直接可读，需要程序解析。
一个数据在文件中如何存储的呢？

字符以ASCII的形式存储，数字可以以二进制的形式存储，也可以以ASCII的形式存储。

例如整数10000，如果以ASCII形式存储的文件为文本文件，以二进制形式存储的文件就是二进制文件。
使用程序说明一下二进制文件。

c 复制代码

#include <stdio.h>
int main()
{
	int a = 10000;
	FILE* pf = fopen("test.txt", "wb");
	fwrite(&a, 4, 1, pf);
	fclose(pf);
	pf = NULL;
	return 0;
}

程序的功能就是，把10000以二进制的形式写入到当前的工作路径下的test.txt文件中。

运行程序，我们使用二进制编辑器查看一下

10 27 00 00 即为10000十六进制以小端存储的形式。

4. 文件的打开和关闭

4.1 流和标准流

4.1.1流

程序的数据需要输出到各种外部设备，也需要从外部设备获取数据，不同的外部设备的输入输出操作各不相同，为了方便程序员对各种设备进行方便的操作，我们抽象出了流的概念，我们可以把流想象成流淌着字符的河。

C程序针对文件、画面、键盘等的数据输⼊输出操作都是通过流操作的。⼀般情况下，我们要想向流里写数据，或者从流中读取数据，都是要打开流，然后操作。

4.2.2标准流

C语言程序启动的时候，默认打开了三个流。

stdin - 标准输入流，大多从键盘输入，scanf就是从stdin中取出数据。

stdout - 标准输出流，大多输出到显示器，printf函数就是把信息输出到标准输出流中。

stderr - 标准错误流，大多输出到显示器

stdin、stdout、stderr三个流的类型是FILE *，通常称为文件指针 。C语言中就是通过FILE *类型的文件指针来维护各种流的操作的。

4.2 文件指针

缓冲文件系统，关键的概念是"文件类型指针 "，简称，"文件指针 "。

每个被使⽤的⽂件都在内存中开辟了⼀个相应的**⽂件信息区** ，⽤来存放⽂件的相关信息（如⽂件的名字，⽂件状态及⽂件当前的位置等）。这些信息是保存在⼀个结构体变量 中的。该结构体类型是由系统声明的，取名 FILE .

每当打开⼀个文件的时候，系统会根据文件的情况自动创建⼀个FILE结构的变量 ，并填充其中的信息，使用者不必关心细节。

⼀般都是通过⼀个FILE的指针 来维护这个FILE结构 的变量，通过文件指针变量可以找到与之相关联的文件 ，这样使用起来更加方便。

4.3 打开和关闭操作

⽂件在读写之前应该先打开⽂件，在使⽤结束之后应该关闭⽂件 。

ANSI C 规定使用 fopen 函数来打开文件， fclose 来关闭文件。

c 复制代码

FILE * fopen(const char *filename ,const char *mode)
int flose(FILE * stream);

mode表示打开文件的模式，下面是打开文件的模式：

下面给了例子说明一下：

c 复制代码

int main()
{
	FILE* pf = fopen("data.txt", "w"); 
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}
	//打开成功,读/写文件

	//关闭文件
	fclose(pf);
	pf = NULL;
	return 0;
}

这里应该注意以下两点。

fopen以""w的形式打开文件的时候,就会清空文件的内容

fopen函数如果打开成功,则返回文件信息区的起始地址，如果打开失败了,就返回NULL

5. 文件的顺序读写

5.1 文件顺序读写函数

5.1.1 fgetc 和 fputc

fgetc 字符输入函数，适用于所有的输入流

fputc 字符输出函数，适用于所有的输出流

写一个文件到流中，例如我们可以循环写26个字母到标准输出流中。

c 复制代码

#include<stdio.h>
int main()
{
	char c = 0;
	for (c = 'a';c <= 'z'; c++)
	{
		fputc(c, stdout);
	}
	return 0;
}

也可以写入到文件流中

c 复制代码

int main()
{
	FILE * pf = fopen("data.txt", "w");
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}
	
	char c = 0;
	for (c = 'a';c <= 'z'; c++)
	{
		fputc(c, pf);
	}
		fclose(pf);
	pf = NULL;
	return 0;
}

从输入流中读取一个字符，例如可以从一个标准输入流中读取一个字符。

c 复制代码

int main()
{
	int ch = 0;
	ch = fgetc(stdin);
	return 0;
}

当然可以可以从文件流中读取字符。，当fgetc读取发生错误的时候就是返回EOF。

c 复制代码

int main()
{
	FILE * pf = fopen("data.txt", "r");
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}

	int ch = 0;
	while ((ch = fgetc(pf)) != EOF) 
	{
		printf("%c ", ch);
	}
	
	fclose(pf);
	pf = NULL;
	return 0;
}

我们这里可以循环的把刚刚使用fputs到data.txt文件中的数据拿出来。

5.1.2 fgets 和 fgetc

fgets 文本行输入函数，适用于所有的输入流。

fputs 文本行输出函数，适用于所有的输出流。

先来看一下 fputs

写一个字符串到输出流中：

c 复制代码

int main()
{
	fputs("hello world", stdout);
	return 0;
}

当然也可以输出到文件流中

c 复制代码

int main()
{
	FILE* pf = fopen("data.txt", "w");
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}
	fputs("hello world", pf);
		fclose(pf);
	pf = NULL;

	return 0;
}

我们发现我们使用fputs函数输出到data.txt中的文件的数据没有了，这是因为"w"会覆盖上的的数据内容，如果需要可以使用"b"，在原内容后追加。

最多从输入流中读取num-1个有效字符。

c 复制代码

int main()
{
	FILE* pf = fopen("data.txt", "r");
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}

	char arr[50];
	fgets(arr, 50, pf);
	printf("%s", arr);
	
	fclose(pf);
	pf = NULL;
	return 0;
}

5.1.3 fscanf 和 fprintf

fscanf 格式化输入函数，适用于所有的输入流。

fprintf 格式化输入函数，适用于所有的输出流。

printf和fprintf的区别就是printf默认输出到标准输出流stdout、而fprintf可以输出到任意输出流。

c 复制代码

int main()
{
	int num = 100;
	float score = 75.5;
	char arr[10]="如花";
	 FILE * pf = fopen("data.txt", "w");
	 if (pf == NULL)
	 {
		 perror("fopen");
		 return 1;
	 }
	 fprintf(pf,"%d %f %s\n",num ,score,arr);
	 fclose(pf);
	 pf = NULL;
	return 0;
}

同理fscanf和scanf的区别就是，scanf只能从标准输入流stdin中获取格式化数据，而fscanf可以从任何输入流中获取格式化数据。

cpp 复制代码

int main()
{
	int num = 0;
	float score = 0;
	char arr[10] = "";
	FILE* pf = fopen("data.txt", "r");
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}
	fscanf(pf, "%d %f %s", &num, &score, arr);
	printf("%d %f %s", num, score, arr);
	fclose(pf);
	pf = NULL;
	return 0;
}

5.1.4 fread 和 fwrite

fread 二进制输入函数，只适用于文件流输入。

fwrite 二进制输出函数，只适用于文件流输出。

ptr 要写入元素的数组指针

size 要写入每个元素的大小

count 要写入每个元素的个数

stream 输出流

c 复制代码

int main()
{
	FILE* pf = fopen("data.txt", "wb");//二进制的写
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}
	int arr[] = { 1,2,3,4,5 };
	//二进制的形式写
	fwrite(arr, sizeof(arr[0]), 5, pf);
	fclose(pf);
	pf = NULL;
	return 0;
}

fread的参数和fwrite类似。

c 复制代码

int main()
{
	FILE* pf = fopen("data.txt", "rb");//二进制的读
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}
	int arr[5] = { 0 };
	//二进制的形式读取
	int i = 0;
	for (i = 0; i < 5; i++)
	{
		fread(&arr[i], sizeof(arr[0]), 1, pf);
		printf("%d ", arr[i]);
	}
	fclose(pf);
	pf = NULL;
	return 0;
}

5.1.5 sscanf 和 sprintf

sscanf 从字符串中读取格式化数据

sprintf 把格式化数据转换成字符串。
)

c 复制代码

int main()
{
	int num = 100;
	float score = 3.14f;
	char name[10] = "小强";

	char str[100] = {0};
	sprintf(str, "%d %f %s", num, score, name);
	
	printf("字符串的形式：%s\n", str);
	int num1 = 0;
	float score1 = 0;
	char name1[10] = {0};

	sscanf(str, "%d %f %s", &num1, &score1, name1);//从字符串中提取格式化的数据
	printf("格式化的形式：%d %f %s\n", num1, score1, name1);

	return 0;
}

6. 文件的随机读写

6.1fseek

fseek可以根据文件指针的位置和偏移量来定位文件指针（文件内容的光标）。

1.origin 有三个取值，SEEK_SET表示文件的起始位置，SEEK_CUR表示文件指针的当前位置，SEEK_END 表示文件的末尾。

下面给出代码

c 复制代码

int main()
{
	FILE* pf = fopen("data.txt", "r");
	if (pf == NULL)
	{
		perror("fopen");
		return 1;
	}
	//读文件
	int ch = fgetc(pf);
	printf("%c", ch);

	//定位文件中光标位置
	//fseek(pf, 2, SEEK_CUR);
	fseek(pf, 3, SEEK_SET);
	//fseek(pf, -3, SEEK_END);
	ch = fgetc(pf);
	printf("%c", ch);
	fclose(pf);
	pf = NULL;

	return 0;
}

起始data.txt文件内容为abcdef，当读取一个字符后，文件指针指向b，当我们期望读取d的时候，有以上三种方式。

6.2 ftell

返回⽂件指针相对于起始位置的偏移量.

c 复制代码

long int ftell ( FILE * stream );

当在上面的程序中加入以上两句。

这也验证了当前文件指针指向d字符的现象。

6.3 rwind

让文件指针的位置回到起始位置。

c 复制代码

void rewind ( FILE * stream );

继续把以上写到6.1的程序中，结果如下。

7. 文件读取结束的判定

7.1 feof

牢记：在文件读取过程中，不能用feof函数的返回值直接来判断文件的是否结束 。

feof 的作用是：当文件读取结束的时候，判断是读取结束的原因是否是：遇到文件结束。

同理ferror的作用时：当文件读取结束对的时候，判断读取结束的原因是否是：读取时发生了错误。

fgetc读取正常返回所读取字符的ASCII值，读取结束返回EOF

fgets读取正常返回的是存储数据的数组的地址，读取结束返回NULL。
3.fscanf 返回读取格式化数据的个数，当返回值小于实际要读的个数说明这是最后一次读取
4.fread返回值小于要求读取的个数说明是最后一次读取。

这里给出一个fgetc的例子

c 复制代码

int main()
{
	int c; // 注意：int，非char要求处理EOF
	FILE* fp = fopen("test.txt", "r");
	if (!fp) {
		perror("fopen");
		return 1;
	}
	//fgetc 当读取失败的时候或者遇到⽂件结束的时候，都会返回EOF
	while ((c = fgetc(fp)) != EOF) 
	{
		putchar(c);
	}
	putchar(c);
	//判断是什么原因结束的
	if (ferror(fp))
		puts("I/O error when reading");
	else if (feof(fp))
		puts("End of file reached successfully");
	fclose(fp);
	return 0;
}

这里也给出一个文本文件的例子

c 复制代码

int main(void)
{
	double a[SIZE] = { 1.,2.,3.,4.,5. };
	FILE* fp = fopen("test.bin", "wb"); // 必须⽤⼆进制模式
	fwrite(a, sizeof * a, SIZE, fp); //写double的数组
	fclose(fp);
	double b[SIZE];
	fp = fopen("test.bin", "rb");
	size_t ret_code = fread(b, sizeof * b, SIZE, fp); // 读double的数组
	if (ret_code == SIZE) {
		puts("Array read successfully, contents: ");
		for (int n = 0; n < SIZE; ++n)
			printf("%f ", b[n]);
		putchar('\n');
	}
	else 
	{ 
		if (feof(fp))
			printf("Error reading test.bin: unexpected end of file\n");
		else if (ferror(fp)) {
			perror("Error reading test.bin");
		}
	}
	fclose(fp);
}

8. 文件缓冲区

ANSIC标准采⽤"缓冲文件系统 "处理的数据文件的，所谓缓冲⽂件系统是指系统自动地在内存中为程序中每⼀个正在使用的文件开辟⼀块"文件缓冲区" 。从内存向磁盘输出数据会先送到内存中的缓冲区，装满缓冲区后才⼀起送到磁盘上。如果从磁盘向计算机读⼊数据，则从磁盘文件中读取数据输入到内存缓冲区（充满缓冲区），然后再从缓冲区逐个地将数据送到程序数据区（程序变量等）,fflush函数会直接刷新缓冲区 。缓冲区的大小根据C编译系统决定的 。

下面给出代码证明缓冲区的存在。

c 复制代码

int main()
{
	FILE* pf = fopen("test.txt", "w");
	fputs("abcdef", pf);//先将代码放在输出缓冲区
	printf("睡眠5秒已经写数据了，打开test.txt文件，发现文件没有内容\n");
	Sleep(5000);
	printf("刷新缓冲区\n");
	fflush(pf);//刷新缓冲区时，才将输出缓冲区的数据写到⽂件（磁盘）
    //注：fflush在⾼版本的VS上不能使⽤了
	printf("再睡眠5秒此时，再次打开test.txt文件，文件有内容了\n");
	Sleep(5000);
	fclose(pf);
	//注：fclose在关闭⽂件的时候，也会刷新缓冲区
    pf = NULL; 
	//即使没有fflush 没有fclose 在程序结束的时候，文件也会被关闭，缓冲区也会被刷新。
	return 0;
}

文件缓冲区的设立的意义如下：

在操作系统中，I/O 操作速度远低于 CPU 执行速度，若程序每次输入输出都直接访问外设，将频繁触发进程阻塞与上下文切换，严重影响系统效率。缓冲区的设立正是为了解决这一矛盾：通过在内存中设置中间缓存区域，程序可先与缓冲区交互，系统则在适当时机统一处理实际的 I/O 操作。这样既减少了进程因等待 I/O 而频繁切换的开销，也提高了 CPU 利用率和整体调度效率，是操作系统在进程调度与资源管理上的重要优化手段。