程序是如何生成的-以c语言为例

一,序言

从代码到能跑的程序,整个过程就像 "把外文翻译成母语,再组装成能直接用的东西",一步步来更清楚:

复制代码
源代码(程序员写的代码,如C语言文件)
    ↓
预处理(处理#开头的命令,如#include、#define)
    ↓
编译(把预处理后的代码转成汇编语言)
    ↓
汇编(把汇编语言转成二进制机器码,生成目标文件,如main.o)
    ↓
链接(合并多个目标文件和库文件,解决函数/变量地址问题)
    ↓
可执行文件(生成能直接运行的文件,如.exe、ELF格式)
    ↓
加载运行(操作系统把文件加载到内存,开始执行代码)

二,相关步骤简介

一、源代码:程序员写的 "原始稿"

就是我们用编程语言(比如 C 语言)写的代码,比如这个打印 "你好世界" 的小程序:

复制代码
#include <stdio.h>
int main() {
    printf("Hello, World!\n");
    return 0;
}

二、预处理:先 "整理" 代码

用预处理器(比如 GCC 里的 cpp)处理代码里带#的命令,让代码更 "干净":

1,比如#include <stdio.h>,会直接把 stdio.h 文件里的内容 "复制粘贴" 到代码里(因为 printf 函数的定义就在这个文件里);

2,要是有#define PI 3.14,会把代码里所有 "PI" 换成 "3.14";

3,还能根据#ifdef这类命令,选择性保留代码(比如调试时用一段,发布时用另一段)。

处理完后,代码里就没有#命令了,只剩纯代码。

三、编译:翻译成 "汇编语言"

用编译器(比如 GCC 里的 cc1)把预处理后的代码,转成电脑硬件能理解的 "汇编语言"(相当于 "二进制的半成品")。

过程中会检查代码对不对:比如语法错了(少个括号)、类型不匹配(整数函数返回空值)都会报错。

举个例子,前面的代码会变成类似这样的汇编:

复制代码
main:
    推栈操作
    准备"Hello, World!"这个字符串
    调用printf函数
    返回0
    出栈操作

四、汇编:转成 "二进制指令"

用汇编器(比如 GCC 里的 as)把汇编语言转成电脑能直接执行的 "二进制机器码",生成 "目标文件"(比如 main.o)。

这个文件里存着:

1,代码段:二进制的指令(比如调用 printf 的操作);

2,数据段:已经初始化的变量(比如int a=10);

3,符号表:记着变量、函数的位置(比如 printf 在哪儿)。

五、链接:拼出 "能跑的程序"

用链接器(比如 GCC 里的 ld)把多个目标文件(比如自己写的 main.o,还有系统提供的库文件)合并成一个 "可执行文件"。

核心是解决 "找不到东西" 的问题:比如代码里用了 printf,但目标文件里只知道有这个函数,不知道它在哪儿 ------ 链接器会找到它在标准库(比如 libc)里的实际位置,把地址填对。

链接分两种:

1,静态链接:直接把库代码(比如 printf 的实现)复制到可执行文件里,文件会变大,但能独立运行;

2,动态链接:只记着依赖哪个库(比如 libc.so),运行时再加载,文件小,但需要系统里有这个库。

六、可执行文件:最终的 "成品"

生成的文件(比如 Windows 的.exe、Linux 的 ELF 文件)里有:

1,文件头:告诉系统怎么加载它、从哪儿开始执行;

2,代码和数据:合并后的二进制指令、变量;

3,动态链接信息(如果用了动态链接):记着需要哪些库。

七、运行:双击就能跑

双击可执行文件后,操作系统会:

1,给它分配内存,建个 "进程";

2,把文件里的代码、数据从硬盘读到内存;

3,如果是动态链接,会加载需要的库;

4,最后跳到入口点(比如 main 函数),开始执行代码 ------ 屏幕上就会显示 "Hello, World!" 啦。

编译型 vs 解释型语言,简单说:

类型 编译型(比如 C/C++) 解释型(比如 Python)
执行前 先编译 + 链接,生成单独的可执行文件 不用编译,直接用解释器一行行读代码跑
速度 快(直接跑机器码) 稍慢(每次都要解释)
跨平台 不同系统可能要重新编译(比如 Windows 和 Linux) 一次写完,有解释器就能跑
相关推荐
季明洵2 小时前
C语言实现单链表
c语言·开发语言·数据结构·算法·链表
浅念-2 小时前
C语言编译与链接全流程:从源码到可执行程序的幕后之旅
c语言·开发语言·数据结构·经验分享·笔记·学习·算法
爱吃生蚝的于勒2 小时前
【Linux】进程信号之捕捉(三)
linux·运维·服务器·c语言·数据结构·c++·学习
The森2 小时前
Linux IO 模型纵深解析 01:从 Unix 传统到 Linux 内核的 IO 第一性原理
linux·服务器·c语言·经验分享·笔记·unix
C++ 老炮儿的技术栈4 小时前
Qt 编写 TcpClient 程序 详细步骤
c语言·开发语言·数据库·c++·qt·算法
wangjialelele4 小时前
Linux下的IO操作以及ext系列文件系统
linux·运维·服务器·c语言·c++·个人开发
wengqidaifeng6 小时前
数据结构(三)栈和队列(上)栈:计算机世界的“叠叠乐”
c语言·数据结构·数据库·链表
VekiSon7 小时前
Linux内核驱动——设备树原理与应用
linux·c语言·arm开发·嵌入式硬件
BlackQid7 小时前
深入理解指针Part5——回调函数及应用
c语言
日拱一卒——功不唐捐7 小时前
字符串匹配:暴力法和KMP算法(C语言)
c语言·算法