Linux：线程的概念、与进程区别及内核实现（线程一）

一、什么是线程？

线程（Thread）是进程内的独立执行流，是操作系统调度的基本单位。简单理解：进程是 "资源分配的容器"，而线程是 "容器里真正干活的执行者"------ 一个进程至少包含一个主线程，多个线程共享进程的全部资源（虚拟地址空间、文件描述符、信号表等），但拥有独立的执行上下文（CPU 寄存器、栈空间）

线程的核心特点：

轻量级：创建和切换成本远低于进程（无需分配独立资源，仅需初始化执行上下文）
资源共享：同一进程内的线程共享进程的代码段、数据段、堆、文件描述符等，通信无需跨进程
独立调度：操作系统以线程为单位分配 CPU 时间片，多个线程可并发执行
协作性：线程间需通过同步机制（如互斥锁）避免共享资源竞争

二、线程与进程的核心区别（对比表）

对比维度	进程（Process）	线程（Thread）
资源分配单位	独立分配虚拟地址空间、文件描述符等	共享所属进程的所有资源
调度执行单位	不直接调度，内核调度其主线程	内核直接调度的基本单位
上下文切换成本	高（需切换页表、地址空间等）	低（仅切换 CPU 寄存器、栈）
独立性	高（一个进程崩溃不影响其他进程）	低（一个线程崩溃可能导致整个进程崩溃）
通信方式	复杂（管道、消息队列、共享内存等）	简单（共享全局变量、堆内存等）
内核实现（Linux）	独立 task_struct + 独立 mm_struct	独立 task_struct + 共享 mm_struct

三、Linux 中线程的内核实现：轻量级进程（LWP）

Linux 内核没有专门的线程结构体 ，线程的实现依赖 "轻量级进程（Lightweight Process, LWP）"------ 无论是进程还是线程，内核都用 task_struct（进程控制块）描述，二者的唯一区别是是否共享 mm_struct（虚拟地址空间）

进程：一个 task_struct 对应一个独立的 mm_struct（虚拟地址空间），即 "独占资源的主线程"
线程：多个 task_struct 共享同一个 mm_struct，即 "共享资源的执行流"

关键概念补充

线程组 ID（tgid） ：同一进程内的所有线程（包括主线程）共享同一个 tgid（等于主线程的 PID），ps 命令显示的 PID 本质是 tgid
线程 ID（tid） ：每个线程的 task_struct 有独立的 tid（内核层面的唯一标识），可通过 pthread_self() 或 gettid() 获取
内核视角 ：Linux 内核不区分 "进程" 和 "线程"，只认 task_struct，线程的 "共享资源" 特性是通过 mm_struct 的共享实现的

四、线程的优缺点

优点：

并发效率高：创建、切换速度快，适合需要大量并发执行的场景（如 Web 服务器处理多请求）
通信成本低：共享进程资源，无需跨进程通信的复杂机制
资源利用率高：多个线程可充分利用 CPU 多核资源，提升程序吞吐量

缺点：

缺乏独立性：线程共享进程资源，一个线程的非法操作（如野指针）可能导致整个进程崩溃
同步复杂：多个线程访问共享资源时需手动同步（如加锁），否则会出现数据错乱（竞态条件）
调试难度大：多线程的执行顺序不确定，排查死锁、竞态条件等问题比单线程复杂

五、第一个 Linux 线程程序：Hello World（含代码）

Linux 中线程编程依赖 POSIX 线程库（pthread 库） ，需注意编译时链接 -lpthread 参数（否则会报未定义引用错误）

代码实现：

复制代码

#include <stdio.h>
#include <pthread.h>
#include <unistd.h>

// 线程执行函数：线程启动后会执行该函数
void* thread_func(void* arg) {
    // arg为传递给线程的参数（需强制类型转换）
    char* thread_name = (char*)arg;
    printf("Hello World! 我是%s，线程ID：%lu\n", thread_name, (unsigned long)pthread_self());
    sleep(1); // 模拟线程执行任务
    return NULL; // 线程退出，返回值为NULL
}

int main() {
    pthread_t tid; // 存储线程ID
    int ret;

    // 1. 创建线程
    // 参数：线程ID指针、线程属性（NULL为默认）、线程执行函数、传递给函数的参数
    ret = pthread_create(&tid, NULL, thread_func, (void*)"线程1");
    if (ret != 0) {
        perror("pthread_create failed");
        return -1;
    }

    printf("主线程ID：%lu，创建的线程ID：%lu\n", (unsigned long)pthread_self(), (unsigned long)tid);

    // 2. 回收线程（等待线程结束，避免线程成为僵尸线程）
    ret = pthread_join(tid, NULL);
    if (ret != 0) {
        perror("pthread_join failed");
        return -1;
    }

    printf("线程执行完毕，主线程退出\n");
    return 0;
}

关键说明：

pthread_self()：获取当前线程的 ID（用户态线程 ID，非内核 tid）
pthread_create()：创建线程，成功返回 0，失败返回错误码（需用 perror 或 strerror 打印错误信息）
pthread_join()：回收线程，阻塞主线程直到目标线程结束，避免线程资源泄漏

六、总结

线程是进程内的独立执行流，共享进程资源，调度成本低
Linux 中线程本质是轻量级进程，通过 task_struct 描述，共享 mm_struct 区分于进程
入门线程编程的核心是掌握 pthread 库的基本使用，理解线程的创建与回收流程

下一篇将详细讲解线程的创建、终止、回收的完整用法，以及线程退出状态的处理，敬请关注！