预处理详解 - 技术栈

在 ANSI C 的任何⼀种实现中，存在两个不同的环境。
第1种是翻译环境，在这个环境中源代码被转换为可执行的机器指令（二进制指令）。
第2种是执行环境，它用于实际执行代码。
那翻译环境是怎么将源代码转换为可执⾏的机器指令的呢？这里我们就得展开开讲解⼀下翻译环境所做的事情。
其实翻译环境是由编译和链接两个大的过程组成的，而编译又可以分解成：预处理（有些书也叫预编译）、编译、汇编三个过程。
大致流程如下：

本篇将介绍预处理这个过程。

1 · 大致介绍

在预处理阶段，源文件和头问你件会被处理成为 .i 为后缀的文件。
预处理阶段主要处理那些源文件中#开始的预编译指令。比如：#include,#define，处理的规则如下：
将所有的 #define 删除，并展开所有的宏定义。
处理所有的条件编译指令，如： #if 、 #ifdef 、 #elif 、 #else 、 #endif 。
处理#include 预编译指令，将包含的头文件的内容插入到该预编译指令的位置。这个过程是递归进
行的，也就是说被包含的头文件也可能包含其他文件。
删除所有的注释
添加行号和文件名标识，方便后续编译器生成调试信息等。
或保留所有的#pragma的编译器指令，编译器后续会使用。
经过预处理后的 .i ⽂件中不再包含宏定义，因为宏已经被展开。并且包含的头文件都被插入到 .i
文件中。所以当我们无法知道宏定义或者头文件是否包含正确的时候，可以查看预处理后的 .i 文件
来确认。

2 · 预定义符号

C语言设置了⼀些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的。通过替换的方式来处理。
如下：

复制代码

__FILE__ //进⾏编译的源⽂件
__LINE__ //⽂件当前的⾏号
__DATE__ //⽂件被编译的⽇期
__TIME__ //⽂件被编译的时间
__STDC__ //如果编译器遵循ANSI C，其值为1，否则未定义

如果想知道这些信息，可以直接使用。如果__STDC__没有报错，说明当前环境是支持ANSIC的。

我们可以测一测：

左侧为当前行号，运行一下：

3 · #define定义常量

用法如下：

复制代码

#define name stuff

在编译时，编译器会将name 替换成对应的 stuff

举几个例子：

复制代码

#define MAX 1000
#define reg register //为 register这个关键字，创建⼀个简短的名字
#define do_forever for(;;) //⽤更形象的符号来替换⼀种实现
#define CASE break;case //在写case语句的时候⾃动把 break写上。
// 如果定义的 stuff过⻓，可以分成⼏⾏写，除了最后⼀⾏外，每⾏的后⾯都加⼀个反斜杠(续⾏
符)。
#define DEBUG_PRINT printf("file:%s\tline:%d\t \
                         date:%s\ttime:%s\n" ,\
                         __FILE__,__LINE__ , \
                         __DATE__,__TIME__ )

那么在define定义标识符的时候，要不要在最后加上 ; 呢

建议不要加上，这样容易导致问题，因为name 会完全被替换为 stuff ，此时的 ; 也会被替换过去。

4 · #define定义宏

#define 机制包括了⼀个规定，允许把参数替换到文本中，这种实现通常称为宏（macro）或定义宏（define macro）。#define 定义宏和 #define 定义常量(符号)的差异就是#define定义宏是有参数的。
下面是宏的声明方式：

复制代码

#define name( parament-list ) stuff

其中，parament-list 是一个由逗号隔开的参数列表，其中的参数可能出现在 stuff中。

注意： 参数列表的左括号必须与name紧邻，如果两者之间有任何空白存在，参数列表就会被解释为stuff的⼀部分。

举个栗子：

复制代码

#define SQUARE( x ) x * x

这个宏接收⼀个参数 x .如果在上述声明之后，你把 SQUARE( 5 ); 置于程序中，预处理器就会用
下面这个表达式替换上面的表达式： 5 * 5
宏的参数会被替换到宏的内容中，有点类似于函数调用。
不过这个宏存在一个问题，假如我们这么写：

cpp 复制代码

#include <stdio.h>
#define SQUARE( x ) x * x

int main()
{
	int a = 5;
	printf("%d\n", SQUARE(a + 1));
	return 0;
}

按照我们预想，结果应该是在屏幕上打印一个36，运行一下：

结果却是11，因为这是纯粹的文本替换，当替换文本时，参数x被替换成a + 1,所以这条语句实际上变成了：

cpp 复制代码

printf ("%d\n",a + 1 * a + 1 );

由替换产⽣的表达式并没有按照预想的次序进行求值。
解决办法也很简单，只需要加上小括号：

cpp 复制代码

#define SQUARE(x) (x) * (x)

再来一个例子：

cpp 复制代码

#define DOUBLE(x) (x) + (x)

这里使用了小括号，以此避免之前的问题，但是还有一个问题：

cpp 复制代码

#include <stdio.h>
#define DOUBLE(x) (x) + (x)
int main()
{
	int a = 5;
	printf("%d\n", 10 * DOUBLE(a));
	return 0;
}

看上去打印的是100，但实际上是55

这是因为替换之后变成了这样：

cpp 复制代码

printf ("%d\n",10 * (5) + (5));

解决方法是在最外面加个小括号：

cpp 复制代码

#define DOUBLE(x) ( ( x ) + ( x ) )

所以，用于对数值表达式进行求值的宏定义都应该用这种方式加上括号，避免在使用宏时由于参数中的操作符或邻近操作符之间不可预料的相互作用。

5 · 带有副作用的宏参数

当宏参数在宏的定义中出现超过⼀次的时候，如果参数带有副作用，那么你在使用这个宏的时候就可能出现危险，导致不可预测的后果。
副作用就是表达式求值的时候出现的永久性效果。
比如：

cpp 复制代码

x+1;//不带副作⽤
x++;//带有副作⽤

我们看看下面这段代码：

cpp 复制代码

#include <stdio.h>
#define MAX(a,b) ((a) > (b) ? (a) : (b))
int main()
{
	int x = 4;
	int y = 6;
	int z = MAX(x++, y++);
	printf("x=%d y=%d z=%d ", x, y, z);
	return 0;
}

预处理之后，变成：

cpp 复制代码

z = ( (x++) > (y++) ? (x++) : (y++));

所以结果是：

6 · 宏替换的规则

在程序中扩展#define定义符号和宏时，需要涉及几个步骤。

在调用宏时，首先对参数进行检查，看看是否包含任何由#define定义的符号。如果是，它们首先
被替换。
替换文本随后被插入到程序中原来文本的位置。对于宏，参数名被他们的值所替换。
最后，再次对结果文件进⾏扫描，看看它是否包含任何由#define定义的符号。如果是，就重复上述处理过程。
注意：
宏参数和#define 定义中可以出现其他#define定义的符号。但是对于宏，不能出现递归。
当预处理器搜索#define定义的符号的时候，字符串常量的内容不被搜索。
什么是字符串常量的内容不被搜索呢？
如下：

cpp 复制代码

#include <stdio.h>
#define MAX(a,b) ((a) > (b) ? (a) : (b))
#define X 5

int main()
{
	int a = 4;
	int b = MAX(X, a);
	printf("X=%d\n",X);
	printf("b=%d\n", b);
	return 0;
}

运行一下看看：

这里的MAX(X,a)的X 和 printf 的第二个参数X都会被替换为5，而printf 的第一个参数"X=%d\n"中的X不会被替换。

7 · 宏和函数的对比

宏通常被应用于执行简单的运算。
比如在两个数中找出较大的⼀个时，写成下面的宏，更有优势⼀些。

cpp 复制代码

#define MAX(a, b) ((a)>(b)?(a):(b))

为什么不使用函数呢？

原因有二：

用于调用函数和从函数返回的代码可能比实际执行这个小型计算工作所需要的时间更多。所以宏比函数在程序的规模和速度方面更胜⼀筹。
更为重要的是函数的参数必须声明为特定的类型。所以函数只能在类型合适的表达式上使用。反之这个宏则可以适用于整形、长整型、浮点型等可以用于 > 来比较的类型。宏的参数是类型无关
的。

当然，宏与函数相比也是有劣势的：

每次使用宏的时候，⼀份宏定义的代码将插⼊到程序中。除非宏比较短，否则可能大幅度增加程序的长度。
宏是没法调试的。
宏由于类型无关，也就不够严谨。
宏可能会带来运算符优先级的问题，导致程容易出现错。
宏有时候可以做函数做不到的事情。比如：宏的参数可以出现类型，但是函数做不到。
如下：

cpp 复制代码

#define MALLOC(num, type)\
 (type*)malloc(num sizeof(type))
 ...
//使⽤
 MALLOC(10, int);//类型作为参数

替换之后就变成了：

cpp 复制代码

 (int *)malloc(10 sizeof(int));

宏和函数的整体对比如下：

8 · #和##

8 - 1 · #运算符

#运算符将宏的⼀个参数转换为字符串字面量。它仅允许出现在带参数的宏的替换列表中。
#运算符所执行的操作可以理解为"字符串化"。
比如：当我们有⼀个变量 int a = 5; 的时候，我们想打印出： the value of a is 5 .
首先我们要了解一下printf中有多个字符串的情况，比如：

复制代码

#include <stdio.h>

int main()
{
	printf("hello""world\n");

	return 0;
}

这两个字符串是会连起来的，运行一下：

那么我们可以这样写：

cpp 复制代码

#include <stdio.h>
#define PRINT(n) printf("the value of "#n" is %d",n)
int main()
{
	int a = 5;
	PRINT(a);

	return 0;
}

运行一下看看：

#a 其实就是转换成了"a" 这里的PRINT替换过后变成了：

cpp 复制代码

printf("the value of " "a" " is %d", a);

8 - 2 · ##运算符

可以把位于它两边的符号合成⼀个符号，它允许宏定义从分离的文本片段创建标识符。 ## 被称

为记号粘合
这样的连接必须产⽣⼀个合法的标识符。否则其结果就是未定义的。
这里我们想写⼀个函数求2个数的较大值的时候，不同的数据类型就得写不同的函数。
比如：

cpp 复制代码

int int_max(int x, int y)
{
     return x>y?x:y;
}

float float_max(float x, float y)
{
     return x>y?x:y;
}

那么我们可以发现，这两个函数的区别只在于他们的类型不同，那么我们有没有一种办法，可以像套公式一样，快速弄出这样的一个函数呢？可以这样写：

cpp 复制代码

#define GENERIC_MAX(type)		\
type type##_max(type x,type y)  \
{								\
	return x > y ? x : y;		\
}

那么此时我们只需要写

cpp 复制代码

GENERIC(int)

就能弄出一个求两个整型数据中的较大值的函数了。

测试一下：

cpp 复制代码

#include <stdio.h>
#define GENERIC_MAX(type)		\
type type##_max(type x,type y)  \
{								\
	return x > y ? x : y;		\
}

GENERIC_MAX(int)
GENERIC_MAX(float)

int main()
{
	int a = int_max(2, 3);
	printf("%d\n", a);
	float b = float_max(3.14, 3.5);
	printf("%f\n", b);
	return 0;
}

运行一下：

这里的##的作用是什么呢？

如果不用##，type_max 会被认为是一个新的符号，不会对type_max 中的type进行替换。

9 · 命名约定

⼀般来讲函数的宏的使用语法很相似。所以语言本⾝没法帮我们区分⼆者。
那我们平时的⼀个习惯是：
把宏名全部大写
函数名不要全部大写
对于函数名，通常会使用下划线(_)或者首字母大写来分隔单词。

10 · #undef

这条指令用于移除⼀个宏定义
用法如下：

cpp 复制代码

#undef NAME

如果现存的⼀个名字需要被重新定义，那么它的旧名字首先要被移除

11 · 命令行定义

许多C 的编译器提供了⼀种能力，允许在命令行中定义符号。用于启动编译过程。
例如：当我们根据同⼀个源文件要编译出⼀个程序的不同版本的时候，这个特性有点用处。（假定某个程序中声明了⼀个某个长度的数组，如果机器内存有限，我们需要⼀个很小的数组，但是另外⼀个机器内存大些，我们需要⼀个数组能够大些。）

cpp 复制代码

#include <stdio.h>
int main()
{
 int array [ARRAY_SIZE];
 int i = 0;
 for(i = 0; i< ARRAY_SIZE; i ++)
 {
 array[i] = i;
 }
 for(i = 0; i< ARRAY_SIZE; i ++)
 {
 printf("%d " ,array[i]);
 }
 printf("\n" );
 return 0;
}

我们写的时候没有定义数组的大小，而是在编译的时候指定：

cpp 复制代码

//linux 环境演⽰
gcc -D ARRAY_SIZE=10 programe.c

12 · 条件编译

在编译⼀个程序的时候我们如果要将⼀条语句（⼀组语句）编译或者放弃是很方便的。因为我们有条件编译指令。
比如：
调试性的代码，删除可惜，保留又碍事，所以我们可以选择性的编译。

cpp 复制代码

#include <stdio.h>
#define __DEBUG__

int main()
{
	int i = 0;
	int arr[10] = { 0 };
	for (i = 0; i < 10; i++)
	{
		arr[i] = i;
		#ifdef __DEBUG__
		printf("%d\n", arr[i]);//为了观察数组是否赋值成功。 
		#endif //__DEBUG__
	}
	return 0;
}

#ifdef 和 #endif 是一对

#ifdef 后面接的字符如果定义了，就会执行

执行的代码是#ifdef 和 #endif 中间的代码

还有很多的条件编译指令：

cpp 复制代码

#if 常量表达式
 //...
#endif
//常量表达式由预处理器求值。

如：

cpp 复制代码

#define __DEBUG__ 1
#if __DEBUG__
 //..
#endif

多个分支的条件编译

cpp 复制代码

#if 常量表达式
 //...
#elif 常量表达式
 //...
#else
 //...
#endif

判断是否被定义

cpp 复制代码

#if defined(symbol)
#ifdef symbol
#if !defined(symbol)
#ifndef symbol

嵌套

cpp 复制代码

#if defined(OS_UNIX)
	#ifdef OPTION1
		unix_version_option1();
	#endif
	#ifdef OPTION2
		unix_version_option2();
	#endif
#elif defined(OS_MSDOS)
	#ifdef OPTION2
		msdos_version_option2();
	#endif
#endif

中间如果有多条语句，是不需要加大括号的。

13 · 头文件的包含

13 - 1 · 头文件被包含的方式

13 - 1 - 1 · 本地文件包含

本地文件的包含用双引号：

cpp 复制代码

#include "filename"

查找策略：先在源文件所在目录下查找，如果该头文件未找到，编译器就像查找库函数头文件⼀样在标准位置查找头文件。
如果找不到就提示编译错误。

13 - 1 - 2 · 库文件包含

库里的文件用尖括号，这样效率会高一点

用双引号和尖括号的区别是查找策略不一样。

cpp 复制代码

#include <filename.h>

查找头文件直接去标准路径下去查找，如果找不到就提示编译错误。
这样是不是可以说，对于库⽂件也可以使用双引号的形式包含？
答案是可以，但是这样做查找的效率就低些，当然这样也不容易区分是库文件还是本地文件了。

13 - 2 · 嵌套文件包含

#include 指令可以使另外⼀个文件被编译。
这种替换的方式很简单：预处理器先删除 #include 所在的这条指令，并用包含文件的内容替换。
⼀个头文件被包含10次，那就实际被编译10次，如果重复包含，对编译的压力就比较大。
如果test.h 文件比较大，这样预处理后代码量会剧增。如果工程比较大，有公共使用的头文件，被大家都使用，但又不做任何的处理，那么后果真的不堪设想。
如何解决这个问题呢？
可以使用条件编译：
在每个头文件的开头写：

cpp 复制代码

#ifndef __TEST_H__
#define __TEST_H__
//头⽂件的内容
#endif //__TEST_H__

或者用预处理指令：

cpp 复制代码

#pragma once

都可以避免头文件的重复引入。

总结

以上简单介绍了预处理相关内容，C语言的语法部分至此就介绍完毕了，后续更新将是使用C语言来实现数据结构

以上内容如有错误或不准确之处，欢迎指出，或者你有更好的想法，也欢迎交流。