朋友们、伙计们,我们又见面了,本期来给大家带来关于重定向和缓冲区的相关知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成!
C 语 言 专 栏:C语言:从入门到精通
数据结构专栏:数据结构
个 人 主 页 :stackY、
C + + 专 栏 :C++
Linux 专 栏 :Linux
目录
[1. 重定向](#1. 重定向)
[1.1 输出重定向](#1.1 输出重定向)
[1.2 追加重定向](#1.2 追加重定向)
[1.3 输入重定向](#1.3 输入重定向)
[1.4 重定向系统调用接口](#1.4 重定向系统调用接口)
[2. 标准错误stderr](#2. 标准错误stderr)
[3. 缓冲区](#3. 缓冲区)
[3.1 缓冲区存在的价值](#3.1 缓冲区存在的价值)
[3.2 缓冲区的刷新方式](#3.2 缓冲区的刷新方式)
[3.3 分析样例](#3.3 分析样例)
[3.4 用户缓冲区和内核缓冲区](#3.4 用户缓冲区和内核缓冲区)
[3.5 何为刷新](#3.5 何为刷新)
[3.6 FILE结构体](#3.6 FILE结构体)
1. 重定向
重定向这个概念在前面Linux常见指令章节就介绍过它的指令以及用法,那么本节来一起深入了解一下重定向:
1.1 输出重定向
echo 字符串 > 文件 :将本来输出在显示器文件(标准输出)上的字符串输出至指定的文件。
标准输出对应的文件fd是1。
下面用代码来实现一下重定向的功能:
cpp#include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <string.h> #define FILE_NAME "log.txt" int main() { // 关闭标准输出 close(1); int fd = open(FILE_NAME, O_WRONLY | O_CREAT | O_TRUNC, 0666); printf("fd: %d\n", fd); fprintf(stdout, "stdout->fd: %d\n", stdout->_fileno); // 刷新 fflush(stdout); close(fd); }
先看结果,再分析代码:
我们都知道文件fd的分配规则,是寻找最小的未被使用的fd进行分配,所以我们先把1号文件描述符关闭,然后再打开文件时,1号文件描述符就被新打开的文件分配走了,这些C语言打印函数,默认是往1号文件描述符对应的文件中打印,简单的说就是它们只认识1这个数字,并不会在乎这个文件到底是不是显示器文件,所以才会把数据打印到新打开的文件中。
至于这里为什么要加这个fflush用来刷新缓冲区在后续会详细介绍。
1.2 追加重定向
追加重定向直接把打开文件时的方式从清空改为追加即可:
cpp#include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <string.h> #define FILE_NAME "log.txt" int main() { // 关闭标准输出 close(1); //int fd = open(FILE_NAME, O_WRONLY | O_CREAT | O_TRUNC, 0666); int fd = open(FILE_NAME, O_WRONLY | O_CREAT | O_APPEND, 0666); printf("fd: %d\n", fd); fprintf(stdout, "stdout->fd: %d\n", stdout->_fileno); // 刷新 fflush(stdout); close(fd); }
1.3 输入重定向
cat指令默认是从标准输入键盘文件中读取数据;
cat < 文件:本来从键盘读取数据,但是重定向为从指定的文件读取数据。
标准输入对应的文件fd是0。
cpp#include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <string.h> #define FILE_NAME "log.txt" int main() { // 关闭标准输入 close(0); int fd = open(FILE_NAME, O_RDONLY); char buffer[1024]; fread(buffer, 1, sizeof(buffer), stdin); printf("%s\n", buffer); close(fd); }
当我们把标准输入文件fd关闭后,根据文件fd的分配规则,新创建的文件就被分配到了0号文件fd,C语言的这些读取接口只认识0号文件fd,只认识0这个数组,所以就直接从0号fd对应的文件中直接读取。
重定向之后上层的fd不变,但是底层fd的指向在变化,所以重定向的本质是修改特定文件fd的下标内容。
1.4 重定向系统调用接口
cpp#include <unistd.h> int dup2(int oldfd, int newfd);
代码演示:
cpp#include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #define FILE_NAME "log.txt" int main() { int fd = open(FILE_NAME, O_RDONLY); // 重定向 dup2(fd, 0); char buffer[1024]; fread(buffer, 1, sizeof(buffer), stdin); printf("%s\n", buffer); close(fd); }
dpu2接口其实是文件描述符级别的数组内容的拷贝!
注意:程序替换是不影响曾经的重定向;
程序替换没有创建新的进程,它更改的是物理到虚拟的转化以及对应的页表,并不会影响进程PCB,所以程序替换不会影响重定向。
2. 标准错误stderr
打印结果分为错误打印和正确打印,正确打印对应的是stdin,错误打印对应的是stderr,它们两者都是打印在显示器上的。
有了stderr之后,就可以将正确打印和错误打印的数据分别存储在两个不同的文件,最主要的是为了查错,当程序出错时,直接去存储错误结果文件查找错误原因。
我们在命令行使用的重定向都是简写,完整的写法是:
bash./exe 1 > log.txt // 输出重定向至log.txt ./exe 1 > log.txt 2 > &1 // 将标准输出和标准错误都重定向至log.txt ./exe 1 > log.txt 2 > log.txt.error // 标准输出重定向至log.txt,标准错误重定向至log.txt.error
3. 缓冲区
在前面的文件fd章节提到过,读写数据的本质是将内核缓冲区中的数据来回拷贝。
那么我们所理解的缓冲区其实就是一块由操作系统提供的内存空间。
3.1 缓冲区存在的价值
举一个现实中的例子来理解缓冲区:
小明居住在西安,他的好朋友居住在苏州,小华和小明每年都要过生日,双方都会在彼此过生日的时候挑选好生日礼物,小明等到小华过生日的前两个月,直接骑着骑行车从西安历经两个月到了苏州,刚好把他给小华准备的生日礼物送到,小华在小明过生日的时候也一样,都是骑两个月自行车去送礼物,就这样持续了好几年,某一天小明和小华家楼下都开了一家快递公司,每小华过生日的小明直接把礼物交给快递公司,让快递公司托运给小华,当小明把礼物给快递公司时,站在小明的视角礼物已经送走了,但是站在小华的视角,礼物当前还没收到,需要时间,但这个时间肯定比小明骑着自行车送过来要更快。
在这个例子中,这个快递公司扮演的角色就类似于缓冲区,正是有了快递公司的存在,大大提升了小明送礼物的效率。
所以缓冲区的存在可以提高使用者的效率,正是因为有了缓冲区的存在,我们可以积累一部分数据再统一发送,减小了发送成本,提升了发送效率。
3.2 缓冲区的刷新方式
因为缓冲区可以暂存数据,所以它必须要有对应的刷新策略;
一般策略:
- 无缓冲(有数据立即刷新)
- 行缓冲(按行为单位进行刷新)
- 全缓冲(等到数据写满缓冲区再刷新)
特殊策略:
- 强制刷新
- 进程退出的时候,一般要进行刷新缓冲区
对于显示器文件,一般使用的是行刷新策略;
对于磁盘文件,一般使用的是全缓冲策略。
3.3 分析样例
下面以缓冲区这个概念为基础,分析一下下面这段代码:
cpp#include <stdio.h> #include <string.h> #include <unistd.h> int main() { fprintf(stdout, "C: hello fprintf\n"); printf("C: hello printf\n"); fputs("C: hello fputs\n", stdout); const char *str = "system call: hello write\n"; write(1, str, strlen(str)); fork(); // 注意fork的位置! return 0; }
命令行运行结果:
当我们直接运行是,和预期一致,都是打印在显示器上的,没有任何问题,但是一旦我们重定向至文件,此时就很奇怪了,接下来我们一步一步分析:
- 当我们直接向显示器打印,显示器文件的刷新方式是行刷新,我们打印的字符串都有'\n',在fork创建子进程之前,数据已经被刷新完毕,所以三条C接口消息和一条系统调用接口消息。
- 当我们将内容重定向至文件log.txt,本质就是向磁盘文件进行写入,我们的系统对于数据的刷新策略从行缓冲变成了全缓冲!
- 全缓冲的策略意味着缓冲区变大,我们写入的简单数据不足以把缓冲区写满,所以在fork执行的时候,数据依旧停留在缓冲区中。
- 当进程退出的时候,一般要刷新缓冲区,即使数据没有满足刷新条件!
- 观察文件中的写入结果发现C接口写入的数据是双倍的,但是系统调用接口写入的数据只有一个,所以这里的缓冲区和和操作系统没有关系,只和C语言本身有关!
- C/C++提供给我们的缓冲区,里面一定保存的是用户的数据,属于当前进程在运行时自己的数据,但是,当我们把数据交给了OS,此时该数据就属于OS,不属于用户了。
- 刷新缓冲区的这个操作就是把进程的数据写入到操作系统,刷新的操作属于清空、写入,所以,在fork之后,OS检测到了父子进程任意一方要对数据进行写入、清空,此时就发生了写时拷贝,父子进程各有一份数据,所以才会C语言调用的接口写入数据时才会写入两次。
- 系统调用接口是直接写入到操作系统,不属于进程数据,所以不发生写时拷贝,只会有一份数据。
3.4 用户缓冲区和内核缓冲区
用户缓冲区就是我们使用的C/C++提供的语言级别的缓冲区。
内核缓冲区是由OS提供的一块内存空间。
3.5 何为刷新
我们使用C语言的接口写入数据时首先是要把数据写入到C语言提供的缓冲区的,那么C语言的缓冲区就有对应的刷新策略(行缓冲、全缓冲等),当数据满足刷新策略时,就会将数据写入到内核缓冲区,所以从用户缓冲区写入到内核缓冲区的这个工作就叫做刷新。
内核缓冲区刷新也有它对应的刷新策略。
C/C++语言提供的缓冲区也是为了提高函数调用(printf、fprintf等)的效率。
3.6 FILE结构体
前面说过FILE结构体中包含了文件描述符,现在来看它里面也必定也包含了C缓冲区:
在Linux在命令行输入:vim /usr/include/libio.h +246 就可以查看对应的FILE结构体对象了。
朋友们、伙计们,美好的时光总是短暂的,我们本期的的分享就到此结束,欲知后事如何,请听下回分解~,最后看完别忘了留下你们弥足珍贵的三连喔,感谢大家的支持!