预处理详解 - 技术栈

1. 预定义符号

C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。

cs 复制代码

__FILE__   //进行编译的源文件
__LINE__   //文件当前的行号
__DATE__   //文件被编译的日期
__TIME__   //文件被编译的时间
__STDC__   //如果编译器遵循ANSI C，其值为1，否则未定义

举例：

cs 复制代码

int main()
{
	printf("%s\n", __FILE__);
	printf("%s\n", __DATE__);
	printf("%s\n", __TIME__);
	printf("%d\n", __LINE__);
}

看个VS2022里特殊的一个，因为它不支持，所以错误

cs 复制代码

int main()
{
	printf("%d\n", __STDC__);
}

2. #define

2.1定义符号（常量）

基本语法：

cs 复制代码

#define name stuff

例：

cs 复制代码

#define MAX 1000

int main()
{
	int m = MAX;
	printf("%d\n", m);

	return 0;
}

打印：

当我们预处理（.i文件）的时候，会发现所有 MAX 均会被 1000 取代。

再看一个：

cs 复制代码

#define forever for(;;) //用更形象的符号来替换一种实现
//for(;;)  初始化部分，调整部分，判断部分 都可以省掉
//但是判断部分如果省略不写，就意味着判断条件恒为真，就死循环

int main()
{
	forever;
	return 0;
}

死循环

（.i文件）

不断循环成死循环。

由此可见。#define 也可以替换代码

cs 复制代码

// 如果定义的 stuff过长，可以分成几行写，除了最后一行外，每行的后面都加一个反斜杠(续行符)。
#define DEBUG_PRINT printf("file:%s\tline:%d\t \
                    date:%s\ttime:%s\n" ,\
                    __FILE__,__LINE__ , \
                    __DATE__,__TIME__ )

实际上是

我们多思考个问题，就是 #define 后要不要带**；**

其实带不带分号都一样，只不过替换的时候会不会替换上分号的问题：

对比两个代码看看（两个均正确）：

cs 复制代码

#define MAX 1000；

int main()
{
	int m = MAX
	printf("%d\n", m);

	return 0;
}

cs 复制代码

#define MAX 1000

int main()
{
	int m = MAX;
	printf("%d\n", m);

	return 0;
}

无非就是替换的代码处的分号的问题。

如果说，如下失误

cs 复制代码

#define MAX 1000；

int main()
{
	int m = MAX;
	printf("%d\n", m);

	return 0;
}

会导致（.i文件），所以一般来说，不带会比较保险，比较符合我们日常敲代码的习惯。

还有其他情况会导致带分号出问题，不一一列举了。

2.2 #define定义宏

#define 机制包括了一个规定，允许把参数替换到文本中，这种实现通常称为宏（macro）或定义宏（define macro）。

下面是宏的申明方式：

cs 复制代码

#define name( parament-list ) stuff

其中的 parament-list （里面的参数可以有一个，也可以多个，也可以没有）是一个由逗号隔开的符号表，它们可能出现在stuff中。

注意：
参数列表的左括号必须与name紧邻，如果两者之间有任何空白存在，参数列表就会被解释为stuff的一部分。

举个例子：

cs 复制代码

#include<stdio.h>
#define SQUARE( x ) x * x

int main()
{
	int a = 5;
	int ret = SQUARE(a);

	printf("%d", ret);

	return 0;
}

相当于把 5*5 替换为了 SQUARE(a)。

我们看以下操作：

cs 复制代码

#include<stdio.h>
#define SQUARE( x ) x * x

int main()
{
	int a = 5;
	int ret = SQUARE(a + 1);

	printf("%d", ret);

	return 0;
}

为什么会这样？不应该是36吗？

（.i文件）

实际上替换以后是这样的，先乘除后加减，算出来 11 就恰当了。

所以我们稍加改进成一下情况：

cs 复制代码

#include<stdio.h>
#define SQUARE( x ) (x) * (x)

int main()
{
	int a = 5;
	int ret = SQUARE(a + 1);

	printf("%d", ret);

	return 0;
}

刚刚好，36。

（.i文件）

不要吝惜括号，给自己造成不必要的麻烦

所以用于对数值表达式进行求值的宏定义都应该用这种方式加上括号，避免在使用宏时由于参数中的操作符或邻近操作符之间不可预料的相互作用。

例：

cs 复制代码

#define DOUBLE( x ) ( ( x ) + ( x ) )

3. 带有副作用的宏参数

当宏参数在宏的定义中出现超过一次的时候，如果参数带有副作用，那么你在使用这个宏的时候就可能出现危险，导致不可预测的后果。副作用就是表达式求值的时候出现的永久性效果。

我们举一个简单的例子：

cs 复制代码

int main()
{
	int a = 1;
	int b = 10;
	a = ++b;//a = b + 1

	printf("%d %d", a, b);
	return 0;
}

"++b"让 b 的值发生改变，就是 b 的副作用。

例

cs 复制代码

x+1;//不带副作用
x++;//带有副作用

MAX宏可以证明具有副作用的参数所引起的问题。

我们可以写一个求最大值的宏：

cs 复制代码

#define MAX(X,Y) ((X)>(Y)?(X):(Y))
#include<stdio.h>
int main()
{
	int a = 3;
	int b = 5;
	int m = MAX(a, b);
	printf("%d", m);
}

如果问们稍加改变呢：

cs 复制代码

#define MAX(X,Y) ((X)>(Y)?(X):(Y))
#include<stdio.h>
int main()
{
	int a = 3;
	int b = 5;
	int m = MAX(a++, b++);
	printf("%d\n", m);
	printf("%d\n", a);
	printf("%d\n", b);
}

这时候 a++，b++，就是带有副作用的。

我们逐层分析一下：

表达式替换:

a++,b++出现两次，就可能会出现重复计算的情况。

4. 宏替换的规则

在程序中扩展#define定义符号和宏时，需要涉及几个步骤。

在调用宏时，首先对参数进行检查，看看是否包含任何由#define定义的符号。如果是，它们首先被替换。
替换文本随后被插入到程序中原来文本的位置。对于宏，参数名被他们的值所替换。
最后，再次对结果文件进行扫描，看看它是否包含任何由#define定义的符号。如果是，就重复上述处理过程。

注意：

宏参数和#define 定义中可以出现其他#define定义的符号。但是对于宏，不能出现递归。
当预处理器搜索#define定义的符号的时候，字符串常量的内容并不被搜索。

5. 宏函数的对比

宏通常被应用于执行简单的运算。

我们比较一下最大值：

cs 复制代码

#include<stdio.h>
#define MAX(X,Y) ((X)>(Y)?(X):(Y))

int Max(int x, int y)
{
	return x > y ? x : y;
}

int main()
{
	int m1 = Max(3, -6);
	int m2 = MAX(3, -6);
	printf("m1 = %d\n",  m1);
	printf("m2 = %d\n",  m2);
	return 0;
}

我们求最大值的时候，宏有更大优势

原因有二：

用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需要的时间更多。所以宏比函数在程序的规模和速度方面更胜一筹。

宏不会有调用，只会有执行，而函数需要调用和执行

更为重要的是函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使用。反之这个宏怎可以适用于整形、长整型、浮点型等可以用于> 来比较的类型。宏的参数是类型无关的。

和函数相比宏的劣势：

每次使用宏的时候，一份宏定义的代码将插入到程序中。除非宏比较短，否则可能大幅度增加程序的长度。
宏是没法调试的。
宏由于类型无关，也就不够严谨。
宏可能会带来运算符优先级的问题，导致程容易出现错。

宏有时候可以做函数做不到的事情。比如：宏的参数可以出现类型，但是函数做不到。

cs 复制代码

#define MALLOC(n, type) (type*)malloc(n*sizeof(type))

int main()
{

	int*ptr = MALLOC(10, int);
	//int *ptr = (int*)malloc(10 sizeof(int));
	return 0;
}

函数的参数不能是类型，而宏压根不会检查参数类型

宏和函数的对比

6. #和##

6.1 #运算符

#运算符将宏的一个参数转换为字符串字面量。它仅允许出现在带参数的宏的替换列表中。

#运算符所执行的操作可以理解为"字符串化"。

先用一个代码引入：

cs 复制代码

#include <stdio.h>
int main()
{
	int a = 1;
	printf("the number of a is %d\n",a);

	int b = 3;
	printf("the number of b is %d\n", b);

	float c = 3.2f;
	printf("the number of c is %f\n", c);
}

这三串都有共同点，就是"printf("the number of is \n", );"

我们用一下宏定义来规划一下：

cs 复制代码

#define Print(n, format) printf("the number of "#n " is " format"\n", n)

int main()
{
	int a = 1;
	Print(a, "%d");
	//printf("the number of a is %d\n",a);

	int b = 3;
	Print(b, "%d");
	//printf("the number of b is %d\n", b);

	float c = 3.2f;
	Print(c, "%f");
	//printf("the number of c is %f\n", c);
}

Print(n);

当我们把n替换到宏的体内时，就出现了#n，而#n就是转换为"n"，时一个字符串代码就会被预处理为：

cs 复制代码

printf("the number of n is  format \n", n);

我们把"n""\n"都给写成了字符串的形式，因此我们更容易理解了"字符串化"的含义了。

6.2 ## 运算符

可以把位于它两边的符号合成一个符号，它允许宏定义从分离的文本片段创建标识符。## 被称

为记号粘合
这样的连接必须产生一个合法的标识符，否则其结果就是未定义的。

举个例子：写一个函数求2个数的较大值的时候，不同的数据类型就得写不同的函数。

cs 复制代码

#include <stdio.h>
int int_max(int x, int y)
{
	return x > y ? x : y;
}
float float_max(float x, float y)
{
	return x > y ? x : y;
}

一般我们用函数会写成这样，但是未免太繁琐，我们稍加改进：

cs 复制代码

#define GENERIC_MAX(type) \
        type type##_max(type x, type y)\
        { \
        return (x>y?x:y); \
        }

GENERIC_MAX(int);//int_max
GENERIC_MAX(float);//float_max

/*
 int int_max(type x, type y)
		{ 
		return x > y ? x : y; 
		}

 float float_max(type x, type y)
		{
		return x > y ? x : y;
		}
*/
int main()
{
	int a1 = int_max(3, 5);
	printf("%d\n", a1);
	float a2 = float_max(3.1f, 4.4f);
	printf("%f\n", a2);

	return 0;
}

GENERIC_MAX(int) 实际上是产生了 int_max，下面直接使用即可。其他同理。

实际上一个宏就可以代替一整段函数。

7. 命名约定

一般来讲函数的宏的使用语法很相似。所以语言本身没法帮我们区分二者。

那我们平时的一个习惯是：
把宏名全部大写
函数名不要全部大写

不是绝对，只是建议，一个习惯而已

8. #undef

这条指令用于移除一个宏定义。

cs 复制代码

#undef NAME
//如果现存的一个名字需要被重新定义，那么它的旧名字首先要被移除。

实例看看：

cs 复制代码

#define MAX(X,Y) ((X)>(Y)?(X):(Y))
#include<stdio.h>
int main()
{
	int a = 3;
	int b = 5;
    int c = 3；
    int d = 5；
	int m = MAX(a, b);
#define MAX
    int n = MAX(c, d);

	printf("%d", m);
    printf("%d", n);
}

我们用的前文可执行代码稍微修改加 #undef

第 175 行就被截止了，不再被承认，所以就错误了。

9. 命令行定义

许多C 的编译器提供了一种能力，允许在命令行中定义符号。用于启动编译过程。

例如：当我们根据同一个源文件要编译出一个程序的不同版本的时候，这个特性有点用处。（假定某个程序中声明了一个某个长度的数组，如果机器内存有限，我们需要一个很小的数组，但是另外一个机器内存大些，我们需要一个数组能够大些。）

cs 复制代码

#include <stdio.h>
int main()
{
	int array[SZ];//SZ未定义
	int i = 0;
	for (i = 0; i < AZ; i++)
	{
		array[i] = i;
	}
	for (i = 0; i < SZ; i++)
	{
		printf("%d ", array[i]);
	}
	printf("\n");
	return 0;
}

（.i文件终端处修改）

cs 复制代码

//linux 环境演示
gcc -D ZS=10 programe.c

-D 说明我要给设定参数了

-o 我要给可执行程序定出名字

./ 执行

这就表示我们会对函数的编译，执行等会更方便。

10. 条件编译

在编译一个程序的时候我们如果要将一条语句（一组语句）编译或者放弃是很方便的。因为我们有条件编译指令。

调试性的代码，删除可惜，保留又碍事，所以我们可以选择性的编译。

cs 复制代码

#include <stdio.h>
#define __DEBUG__
int main()
{
	int i = 0;
	int arr[10] = { 0 }; 
	for (i = 0; i < 10; i++)
	{
		arr[i] = i;
#ifdef __DEBUG__
		printf("%d\n", arr[i]);
#endif //__DEBUG__
	}
	return 0;
}

#ifdef #endif 相当于两个开关，关系到是否想让他运行。

#ifdef #endif就是条件编译指令。

我们再看还有哪些条件编译指令：

第一个：

cs 复制代码

1.
#if 常量表达式
//...
#endif
//常量表达式由预处理器求值。

cs 复制代码

#define M -10
int main()
{
#if M > 0
	printf("hehe");
#endif
	return 0;
}

打印不出来

把 -10 换成 4，符合条件就执行

第二个：

cs 复制代码

2.多个分支的条件编译
#if 常量表达式
//...
#elif 常量表达式
//...
#else
//...
#endif

cs 复制代码

#define M 1
int main()
{
#if M==0
	printf("hehehe\n");
#elif M==1
	printf("wahaha\n");
#else M==2
	printf("aiheihei\n");
#endif 

	return 0;
}

更换M 同理

第三个：

cs 复制代码

3.判断是否被定义
#if defined(symbol)
#ifdef symbol
#if !defined(symbol)
#ifndef symbol

cs 复制代码

#define MAX
int main()
{
#if defined(MAX)
	printf("hehe\n");
#endif
}

只在乎是否定义，不在乎MAX 赋值或者真假

cs 复制代码

#define MAX
int main()
{
#ifdef MAX
	printf("hehe\n");
#endif
}

同上；

cs 复制代码

#define MAX
int main()
{
#if !defined(MAX)
	printf("hehe\n");
#endif
	printf("HAHA\n");
}

当定义时就不打印

cs 复制代码

#define MAX
int main()
{
#ifndef MAX
	printf("hehe\n");
#endif
	printf("HAHA\n");
}

同上；

第四个：

cs 复制代码

4.嵌套指令
#if defined(OS_UNIX)
	#ifdef OPTION1
		unix_version_option1();
	#endif
	#ifdef OPTION2
		unix_version_option2();
	#endif
#elif defined(OS_MSDOS)
	#ifdef OPTION2
		msdos_version_option2();
	#endif
#endif

虽然看起来很繁琐，但是就和if else 一样非常简单，就是不同条件语句对应不同代码。

11. 头文件的包含

11.1 头文件被包含的方式

11.1.1 本地文件包含

cs 复制代码

#include "filename"

cs 复制代码

test.c

#include "add.h"
#include <stdio.h>

int main()
{
	int a = 1;
	int b = 2;
	int c = Add(a, b);
	printf("c = %d\n", c);
	return 0;
}

cs 复制代码

add.h

int Add(int x, int y)
{
	return x + y;
}

包含自己的头文件用 " "，标准头文件用 < >.

查找策略：先在源文件所在目录下查找，如果该头文件未找到，编译器就像查找库函数头文件一样在标准位置查找头文件。
如果找不到就提示编译错误。

Linux环境的标准头文件的路径：

cs 复制代码

/usr/include

VS环境的标准头文件的路径：

cs 复制代码

C:\Program Files (x86)\Microsoft Visual Studio 12.0\VC\include
//这是VS2013的默认路径

实际上不同标准头文件实际位置按类型放置不同区域，但是同一类型位置固定。

11.1.2 库文件包含

cs 复制代码

#include <filename.h>

查找头文件直接去标准路径下去查找，如果找不到就提示编译错误。

这样是不是可以说，对于库文件也可以使用 "" 的形式包含？

cs 复制代码

#include "add.h"
#include "stdio.h"

int main()
{
	int a = 1;
	int b = 2;
	int c = Add(a, b);
	printf("c = %d\n", c);
	return 0;
}

答案是肯定的，可以，但是这样做查找的效率就低些，当然这样也不容易区分是库文件还是本地文件了。

11.2 嵌套文件包含

我们已经知道， #include 指令可以使另外一个文件被编译。就像它实际出现于#include 指令的

地方一样。

这种替换的方式很简单：预处理器先删除这条指令，并用包含文件的内容替换。

一个头文件被包含10次，那就实际被编译10次，如果重复包含，对编译的压力就比较大。

cs 复制代码

test.c

#include "test.h"
#include "test.h"
#include "test.h"
#include "test.h"
#include "test.h"

int main()
{
    return 0
}

cs 复制代码

test.h

void test();
struct Stu
{
int id;
char name[20];
};

如果直接这样写，test.c文件中将test.h包含5次，那么test.h文件的内容将会被拷贝5份在test.c中。

如果test.h 文件比较大，这样预处理后代码量会剧增。如果工程比较大，有公共使用的头文件，被大家都能使用，又不做任何的处理，那么后果真的不堪设想。

如何解决头文件被重复引入的问题？答案：条件编译。

每个头文件的开头写：

cs 复制代码

#ifndef __TEST_H__
#define __TEST_H__
//头文件的内容
#endif //__TEST_H__

或者

cs 复制代码

#pragma once

就可以避免头文件的重复引入。

参考《C语言深度解剖》学习