C语言进阶7:程序环境与预处理

本章重点

程序的翻译环境
程序的执行环境
详解：C语言程序的编译 + 链接
预定义符号介绍
预处理指令 #define
宏和函数的对比
预处理操作符#和##的介绍
命令定义
预处理指令 #include
预处理指令 #undef
条件编译

1.程序的翻译环境和执行环境

在ANSIC的任何一种实现中，存在两个不同的环境。

第1种是翻译环境，在这个环境中源代码被转换为可执行的机器指令。

第2种是执行环境，它用于实际执行代码。

翻译环境：

mermaid##h50 复制代码

	graph LR
    A[test.c] -- 翻译环境 - VS2019(集成开发环境)充当 --> B[test.exe]

2.编译+链接

2.1 翻译环境

组成一个程序的每个源文件通过编译过程分别转换成目标代码（object code）
每个目标文件由链接器（linker）捆绑在一起，形成一个单一而完整的可执行程序
链接器同时也会引入标准C函数库中任何被该程序所用到的函数
而且它可以搜索程序员个人的程序库，将其需要的函数也链接到程序中

2.2 编译与链接具体阶段

预处理阶段完成的事情（文本操作）：

完成了头文件的包含 #include
#define 定义的符号和宏的替换
注释删除

预处理阶段完成后生成
*.i 的文件 -> 对应的Linux指令 gcc test.c -E > test.i

编译阶段完成的事情：

语法分析
词性分析
语义分析
符号汇总 - 汇总全局的符号：全局变量、函数

编译阶段完成后

生成 *.s 的文件，将C语言代码转换成汇编代码。 -> 对应的Linux指令 gcc test.c -S

汇编阶段完成的事情：

生成符号表

汇编阶段完成后

生成 *.o 的文件【目标文件】，将汇编代码转换成机器指令（二进制指令）。 -> 对应的Linux指令 gcc test.c -c

test.o 文件是elf格式，将文件划分成不同的段，给每个符号分配地址，可使用 readelf工具理解

链接阶段完成的事情：

把多个目标文件和链接库进行链接
- 合并段表
- 符号表的合并和重定位 - 保留有效地址（函数声明有地址，函数定义也有地址。保留定义的地址）

汇编阶段完成后

生成 *.out 的文件【elf格式】

2.3 运行环境

程序执行的过程：

程序必须载入内存中。在有操作系统的环境中：一般这个由操作系统完成。在独立的环境中，程序的载入必须由手工安排，也可能是通过可执行代码置入只读内存来完成。
执行程序，调用main函数。
开始执行程序代码。这个时候程序将使用一个运行时堆栈（stack），存储函数的局部变量和返回地址。程序同时也可以使用静态（static）内存，存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。
终止程序。正常终止main函数；也有可能是意外终止。

3.预处理详解

3.1 预定义符号

复制代码

__FILE__		//进行编译的源文件
__LINE__		//文件当前的行号
__DATE__		//文件被编译的日期
__TIME__		//文件被编译的时间
__STDC__		//如果编译器遵循ANSI C，其值为1，否则未定义	VS2019不支持

这些预定义符号都是语言内置的。

c 复制代码

int main()
{
	printf("%s\n", __FILE__);
	printf("%d\n", __LINE__);
	printf("%s\n", __DATE__);
	printf("%s\n", __TIME__);
	printf("%s\n", __FUNCTION__);
    return 0;
}

代码运行时记录一些日志信息，通过日志信息分析哪里出现了问题，从而进行排查。

c 复制代码

int main()
{
	int i = 0;
	FILE* pf = fopen("log.txt", "a+");
	if (pf == NULL)
	{
		perror("fopen\n");
		return 1;
	}
    
    //保存日志文件
	for (i = 0; i < 10; i++)
	{
		fprintf(pf, "%s %d %s %s %d\n", __FILE__, __LINE__, __DATE__, __TIME__, i);
	}
	fclose(pf);
	pf = NULL;

	return 0;
}

3.2 #define

3.2.1 #define 定义标识符

语法：

#define name stuff

c 复制代码

//#define 后面最好不要加; 会引出一些问题
#define MAX 1000
#define reg register			//为 register这个关键字，创建一个简短的名字
#define do_forever for(;;)		//用更形象的符号来替换一种实现
#define CASE break;case			//在写case语句的时候自动把 break写上。

// 如果定义的stuff过长，可以分成几行写，除了最后一行外，每行的后面都加一个反斜杠(续行符)。
#define DEBUG_PRINT printf("file:%s\tline:%d\t \
                          date:%s\ttime:%s\n" ,\
                          __FILE__,__LINE__ ,       \
                          __DATE__,__TIME__ )

在define定义标识符的时候，不要在最后加上; 因为这样会引出一些问题。

复制代码

#define MAX 1000;
#define MAX 1000

比如下面的场景：

复制代码

if(condition)
    max = MAX; // max = 1000; ; -> 出现问题 else没有配对的if，会出现语法错误。
else
    max = 0;

3.2.2 #define 定义宏

#define 机制包括了一个规定，允许把参数替换到文本中，这种实现通常称为宏(macro)或定义宏。

宏的申明方式：

#define name( parament-list ) stuff

其中的parament-list是一个由逗号隔开的符号表，它们可能出现在stuff中。

注意:

参数列表的左括号必须与name紧邻。

如果两者之间有任何空白存在，参数列表就会被解释为stuff的一部分。

c 复制代码

#define SQUARE( x )  x * x

SQUARE( 5 ); //等价于5 * 5

//执行顺序
//1. SQUARE( 5 ) -> 5传递给SQUARE( x )里面的X
//2. SQUARE( x )里面的X替换到文本中 X * X
//3. X * X被替换下来即：SQUARE( 5 ) -> 5 * 5

注意：这个宏存在一个问题

c 复制代码

#define SQUARE( x )  x * x

int a = 5;
printf("%d\n" ,SQUARE( a + 1) );

事实上，它将打印11，而不是36。

本质：先替换，再计算。

替换文本时，参数x被替换成a + 1,所以这条语句实际上变成了：

c 复制代码

printf ("%d\n",a + 1 * a + 1 );

解决方法：

在宏定义上加上两个括号，这个问题便轻松的解决了。括号非常重要！

#define SQUARE(x) (x) * (x)

printf ("%d\n",(a + 1) * (a + 1) );

下面的定义中我们使用了括号，想避免之前的问题，但是这个宏可能会出现新的错误。

c 复制代码

#define DOUBLE(x) (x) + (x)

int a = 5;
printf("%d\n" ,10 * DOUBLE(a));

看上去，好像打印100，但事实上打印的是55。

替换之后发现：
printf ("%d\n",10 * (5) + (5));

这个问题的解决办法是在宏定义表达式两边加上一对括号就可以了。
#define DOUBLE( x) ( ( x ) + ( x ) )

结论：用于对数值表达式进行求值的宏定义都应该在每个符号加上括号，整体再加上一个括号，避免在使用宏时由于参数中的操作符或邻近操作符之间不可预料的相互作用。

3.2.3 #define 替换规则

在程序中扩展#define定义符号和宏时，需要涉及几个步骤。

在调用宏时，首先对参数进行检查 ，看看是否包含任何由#define定义的符号。如果是，它们首先被替换。
替换文本随后被插入到程序中原来文本的位置。对于宏，参数名被他们的值替换。
最后，再次对结果文件进行扫描，看看它是否包含任何由#define定义的符号。如果是，就重复上述处理过程。

注意：

宏参数和#define定义中可以出现其他#define定义的常量。但是对于宏，不能出现递归。
当预处理器搜索#define定义的符号的时候，字符串常量的内容并不被搜索。

c 复制代码

#define M 100
printf("M = %d\n", M); //第一个M不会被替换

3.2.4 #和##

字符串是有自动连接的特点：

c 复制代码

printf("hello bit\n");
printf("hello" " bit\n");
printf("hello"," bit\n");
char* p = "hello ""bit\n";
printf("%s", p);
//输出的都是：hello bit

#: 把一个宏参数变成对应的字符串，只能在宏里面使用。

把参数插入到字符串中：

c 复制代码

//#X 会变成参数所对应的字符串，只能在宏里面使用
#define PRINT(X, FORMAT) printf("the value of "#X" is "FORMAT"\n", X);
//或: #define PRINT(X, FORMAT) printf("the value of "#X" is %d\n", X);
//    #define PRINT(X, FORMAT) printf("the value of "#X" is %f\n", X);
int main()
{
	int a = 10;
	PRINT(a, "%d");
    //printf("the value of "#X" is "FORMAT"\n", X);
	//printf("the value of ""a"" is %d\n", a);
	//the value of a is 10

	int b = 20;
	PRINT(b, "%d");
    //printf("the value of "#X" is "FORMAT"\n", X);
	//printf("the value of ""b"" is %d\n", b);
	//the value of b is 20

	int c = 30;
	PRINT(c, "%d");
    //printf("the value of "#X" is "FORMAT"\n", X);
    //printf("the value of ""c"" is %d\n", c);
	//the value of c is 30

	float f = 5.5f;
	PRINT(f, "%f");
    //printf("the value of "#X" is "FORMAT"\n", X);
	//printf("the value of ""F"" is ""%f""\n", f);
	//the value of f is 5.500000

	return 0;
}

##: 可以把位于它两边的符号合成一个符号。

它允许宏定义从分离的文本片段创建标识符 。

这样的连接必须产生一个合法的标识符。否则其结果就是未定义的。

c 复制代码

#define CAT(X,Y,Z) X##Y##Z

int main()
{
	int class101101 = 100;
	printf("%d\n", CAT(class, 101, 101));
    //printf("%d\n", class##101##101);
    //相当于printf("%d\n", class101101);

	return 0;
}

3.2.5 带副作用的宏参数

当宏参数在宏的定义中出现超过一次的时候，如果参数带有副作用，那么你在使用这个宏的时候就可能出现危险，导致不可预测的后果。副作用就是表达式求值的时候出现的永久性效果。

什么是副作用：

比如

c 复制代码

#include<stdio.h>

int main()
{
	int a = 10;
	int b = a + 1;//不改变a的初始值
	int c = ++a;//导致a的初始值也改变了，这就是副作用

	int ch = getchar();//副作用:得到的值的同时,缓冲区该值消失
  
	return 0;
}

x+1;//不带副作用
x++;//带有副作用, 因为修改了x的值

c 复制代码

#define MAX(X,Y) ((X)>(Y)?(X):(Y))

int main()
{
	int a = 5;
	int b = 8;
    
	int m = MAX(a++, b++);
    //int m = ((a++) > (b++) ? (a++) : (b++));
	printf("m = %d\n", m); //输出结果：9
	printf("a=%d b=%d\n", a, b);//a=6, b=10


	return 0;
}

3.2.6 宏和函数对比

运算足够简单，可以考虑用宏；其他情况用函数。

宏通常被应用于执行简单的运算。

比如在两个数中找出较大的一个。

c 复制代码

//宏
#define MAX(a, b) ((a)>(b)?(a):(b))

c 复制代码

//函数
int  Max(int x, int y)
{
	return ((x) > (y) ? x : y);
}

那为什么不用函数来完成这个任务？

原因有二：

用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需要的时间更多。
所以宏比函数在程序的规模和速度方面更胜一筹。
更为重要的是函数的参数必须声明为特定的类型。
所以函数只能在类型合适的表达式上使用。反之宏可以适用于整形、长整型、浮点型等可以用来比较的类型。
宏是类型无关的。

当然和宏相比函数也有劣势的地方：

每次使用宏的时候，一份宏定义的代码将插入到程序中。除非宏比较短，否则可能大幅度增加程序的长度。
宏是没法调试的。 -> 调试其实的是可执行程序（链接后的结果）
宏由于类型无关，也就不够严谨。
宏可能会带来运算符优先级的问题，导致程序容易出现错。

宏有时候可以做函数做不到的事情。比如：宏的参数可以出现类型#，但是函数做不到。

c 复制代码

#define MALLOC(num, type) (type*)malloc((num)*sizeof(type))

int main()
{
	//(int *)malloc(10*sizeof(int));
	int*p = MALLOC(10, int);
	//(int*)malloc(10 * sizeof(int));
    
	return 0;
}

宏和函数的对比

属性	#define定义宏	函数
代码长度	每次使用时，宏代码都会被插入到程序中。除了非常小的宏之外，程序的长度会大幅度增长	函数代码只出现于一个地方；每次使用这个函数时，都调用那个地方的同一份代码
执行速度	更快	存在函数的调用和返回的额外开销，所以相对慢一些
操作符优先级	宏参数的求值是在所有周围表达式的上下文环境里，除非加上括号，否则邻近操作符的优先级可能会产生不可预料的后果，所以建议宏在书写的时候多写括号	函数参数只在函数调用的时候求值一次，它的结果值传递给函数。表达式的求值结果更容易预测
带有副作用的参数	参数可能被替换到宏体中的多个位置，所以带有副作用的参数求值可能会产生不可预料的结果	函数参数只在传参的时候求值一次，结果更容易控制
参数类型	宏的参数与类型无关，只要对参数的操作是合法的，它就可以使用于任何参数类型	函数的参数是与类型有关的，如果参数的类型不同，就需要不同的函数，即使他们执行的任务是不同的
调试	宏是不方便调试的	函数是可以逐语句调试的
递归	宏是不能递归的	函数是可以递归的

3.2.7 命名约定

一般来讲函数的宏的使用语法很相似。所以语言本身没法帮我们区分二者。

那我们平时的一个习惯是：

把宏名全大写，函数名最好首字母大写

3.3 #undef

这条指令用于移除一个宏定义。

c 复制代码

#define M 100
 
int main()
{
	printf("%d\n", M);
 
	#undef M
	printf("%d\n", M);
	//会报错：未定义标识符'M'
 
	return 0;
}

3.4 命令行定义

许多C的编译器提供了一种能力，允许在命令行中定义符号。用于启动编译过程。

例如：当我们根据同一个源文件要编译出一个程序的不同版本的时候，这个特性有点用处。（假定某个程序中声明了一个某个长度的数组，如果机器内存有限，我们需要一个很小的数组，但是另外一个机器内存大写，我们需要一个数组能够大写。）

c 复制代码

#include <stdio.h>
int main()
{
    int array [ARRAY_SIZE];
    int i = 0;
    for(i = 0; i< ARRAY_SIZE; i ++)
    {
        array[i] = i;
    }
    for(i = 0; i< ARRAY_SIZE; i ++)
    {
        printf("%d " ,array[i]);
    }
    printf("\n" );
    return 0;
}

编译指令（Linux下使用）：

gcc -D ARRAY_SIZE=10 programe.c //-D : 命令行参数

3.5 条件编译

在编译一个程序的时候我们如果要将一条语句（一组语句）编译或者放弃是很方便的 。因为有条件编译指令。

调试性的代码，删除可惜，保留又碍事，可以选择性的编译。

c 复制代码

#if 0

#define PRINT 1

int main()
{
#ifdef PRINT //如果定义PRINT就执行下面的代码
	printf("hehe\n");
#endif

#if PRINT
	printf("hehe\n");
#endif

	return 0;
}

#endif

常见的条件编译指令：

c 复制代码

//1.
#if  常量表达式
    //...
#endif
//常量表达式由预处理器求值。
如：
#define __DEBUG__ 1
#if __DEBUG__
    //..
#endif
    
//2.多个分支的条件编译 执行逻辑同if-elif-else - 至多选择一个执行
#if 常量表达式
    //...
#elif 常量表达式
    //...
#else
    //...
#endif
    
//3.判断是否被定义 - 定义了就执行，不管值是多少
#if defined(symbol) //定义了就执行
#ifdef symbol //效果同上
    
#if !defined(symbol) //没定义就执行
#ifndef symbol //效果同上
    
//4.嵌套指令 - 上面几种条件编译方式进行嵌套
#if defined(OS_UNIX)
    #ifdef OPTION1
        unix_version_option1();
    #endif
    #ifdef OPTION2
        unix_version_option2();
    #endif
#elif defined(OS_MSDOS)
    #ifdef OPTION2
        msdos_version_option2();
    #endif
#endif

3.6 文件包含

我们已经知道， #include 指令可以使另外一个文件被编译。

就像它实际出现于 #include 指令的地方一样。

这种替换的方式很简单：

预处理器先删除这条指令，并用包含文件的内容替换。

这样一个源文件被包含10次，那就实际被编译10次。

我们可以定义自己建立的头文件，如在头文件夹里面定义kunzi.h

那么，我们就可以在.c文件里面编译运行：#include"kunzi.h"

3.6.1 头文件被包含的方式：

本地文件包含：#include "filename"

查找策略：

先在源文件所在目录下查找，如果该头文件未找到，编译器就像查找库函数头文件一样在标准位置查找头文件。

如果找不到就提示编译错误。

库文件包含：#include <filename.h>

查找策略：

查找头文件直接去标准路径下去查找，如果找不到就提示编译错误。

根据上述查找策略所说：对于库文件也可以使用 ""的形式来进行包含。

但是这样做查找的效率就低些，当然这样也不容易区分是库文件还是本地文件了。

3.6.2 嵌套文件包含

如果多次包含则会引入多次，但一般实际上会出现这样的情况：

comm.h和comm.c是公共模块。

test1.h和test1.c使用了公共模块。

test2.h和test2.c使用了公共模块。

test.h和test.c使用了test1模块和test2模块。

这样最终程序中就会出现两份comm.h的内容。这样就造成了文件内容的重复。

如何来解决文件的重复包含呢？

我们可以利用条件编译来处理

如果我们每个文件的开头都这样写：

方法一：

c 复制代码

#ifndef TEXT_H  //第一次进来的时候，没有定义TEXT_H,会编译下面的代码
//第二次进来的时候,TEXT_H已经定义，则不会在继续编译
 
#define TEXT_H
......
#endif

方法二：

#pragma once现在，在我们生成头文件的时候会自动携带，就是为了防止重复包含

注：《高质量C/C++编程指南》中附录的考试试卷

推荐看看

笔试题：

头文件中的 ifndef/define/endif是干什么用的?

避免文件重复包含

#include <filename.h>和 #include "filename.h"有什么区别?

查找策略不同，

<filename.h>只会在库目录里面查找

"filename.h"先在自己工程目录下查找文件，如果没有再去库目录里面查找

4.其他预处理指令

c 复制代码

#error
#pragma
#line

......

推荐看《C语言深度解剖》这本书进行学习

#pragma pack()在结构体部分介绍过，这里给大家再回忆下：

        #pragma pack(8)设置默认对齐数为8

        #pragma pack()//取消设置的默认对齐数，还原为默认

        #pragma pack(1)//设置默认对齐数为1