DIY Shell：探秘进程构建与命令解析的核心原理

个人主页：chian-ocean

文章专栏-Linux

前言：

Shell（外壳）是一个操作系统的用户界面，它提供了一种方式，使得用户能够与操作系统进行交互。Shell 是用户与操作系统之间的桥梁，允许用户通过命令行输入来执行各种操作，例如文件管理、程序执行、进程控制、系统监控等

常见的 Shell 类型：

Bash（Bourne Again Shell） ：
- 是 Linux 和 macOS 等类 Unix 系统中常见的默认 Shell。它是 Bourne Shell 的增强版，支持丰富的特性，如命令补全、历史命令、数组等。
Zsh（Z Shell） ：
- 是一个功能强大的 Shell，支持更丰富的自动化、命令补全、插件系统等特性。Zsh 常常被认为是最为用户友好的 Shell 之一。
Fish（Friendly Interactive Shell） ：
- 是一个具有用户友好界面和丰富特性（如自动提示、自动补全等）的现代 Shell。其设计注重简洁和易用性。
C Shell（csh） ：
- 基于 C 语言语法的 Shell，主要用于早期的 Unix 系统。C Shell 提供了较强的脚本编程功能。
Korn Shell（ksh） ：
- 是一个功能强大的 Shell，结合了 Bourne Shell 和 C Shell 的特性，并且提供了很多增强的功能。

shell外壳的实现

引入头文件

cpp 复制代码

#include<string>
#include<unistd.h>
#include<sys/wait.h>
#include<sys/types.h>
#include<stdlib.h>
#include<stdio.h>
#include<string.h>
#include<assert.h>

#include<string>：引入 C++ 的 string 库，用于字符串处理。
#include<unistd.h> ：提供访问系统调用的接口，例如 fork()、execvp()、getcwd() 等。
#include<sys/wait.h>：包含等待子进程退出的函数。
#include<sys/types.h> ：包含系统数据类型的定义，如 pid_t（进程 ID 类型）。
#include<stdlib.h> ：提供一些标准库函数，如 exit()、getenv() 和 putenv() 等。
#include<stdio.h> ：提供输入输出函数，如 printf()。
#include<string.h> ：提供字符串操作函数，如 strtok()、strcmp() 等。
#include<assert.h> ：提供调试宏 assert()，用于检测程序中的错误

宏定义

cpp 复制代码

#define DELIM " \t"
#define LEFT "["
#define RIGHT "]"
#define LABLE "$"
#define LINE_SIZE 1024
#define ARGC_SIZE 32
#define EXIT_CODE 4

DELIM：命令行参数的分隔符，包含空格和制表符。
LEFT, RIGHT, LABLE：格式化命令行提示符的符号，用于显示用户、主机和当前工作目录。
LINE_SIZE：最大命令行字符长度，设置为1024。
ARGC_SIZE：最大命令行参数数量，设置为32。
EXIT_CODE：用于退出的错误代码。

全局变量

cpp 复制代码

int quit = 0;
int LASTCODE = 0;
char* argv[ARGC_SIZE];
char commondline[LINE_SIZE];
char pwd[ARGC_SIZE];
char myenv[ARGC_SIZE];

quit：控制程序是否退出的标志。
LASTCODE：记录上一个命令的退出状态码。
argv：存储命令行解析后的参数。
commondline：存储输入的命令行字符串。
pwd：存储当前工作目录路径。
myenv：存储环境变量。

cpp 复制代码

const char* getusr()
{
    return getenv("USER");
}

const char* gethostname()
{
    return getenv("HOSTNAME");
}

getusr：返回当前用户的用户名。
gethostname：返回当前计算机的主机名。

获取当前工作目录

cpp 复制代码

void getpwd()
{
    getcwd(pwd, sizeof(pwd));
}

getpwd ：调用 getcwd 获取当前工作目录，并将结果存储在 pwd 中。

交互式输入处理

cpp 复制代码

void ineract(char* cline, int size)
{
    getpwd();
    printf(LEFT"%s@%s %s"RIGHT""LABLE" ", getusr(), gethostname(), pwd);

    char* s = fgets(cline, size, stdin);
    assert(s);
    (void)s;

    cline[strlen(cline) - 1] = '\0';
}

该 ineract 函数是命令行交互的核心部分，用于显示提示符并获取用户输入。以下是对代码逐行的解析：

函数定义

cpp 复制代码

void ineract(char* cline, int size)

cline：指向存储用户输入命令的字符数组的指针。
size ：输入缓冲区的大小，表示 cline 数组的最大容量。

获取当前工作目录并显示提示符

cpp 复制代码

getpwd();
printf(LEFT"%s@%s %s"RIGHT""LABLE" ", getusr(), gethostname(), pwd);

getpwd() ：调用 getpwd 函数来获取当前工作目录并存储到全局变量 pwd 中。
printf ：显示命令行提示符。格式为 [user@hostname pwd]$，其中：
- getusr()：获取当前用户名（通过环境变量 USER）。
- gethostname()：获取当前主机名（通过环境变量 HOSTNAME）。
- pwd：显示当前工作目录。
提示符通过格式化字符串显示，LEFT 和 RIGHT 用于添加方括号（[ 和 ]）包围信息，而 LABLE 是一个 $ 字符，表示命令行提示符。

获取用户输入

cpp 复制代码

char* s = fgets(cline, size, stdin);
assert(s);
(void)s;

fgets(cline, size, stdin) ：从标准输入（键盘）读取用户输入，存储在 cline 数组中，最多读取 size-1 个字符。fgets 会自动在输入末尾添加一个 \0 来终止字符串。
assert(s) ：如果 fgets 返回 NULL，程序将终止并输出错误信息。assert 是一种调试检查，确保输入读取成功。如果 s 为 NULL，说明读取输入失败。
(void)s ：(void)s 的作用是消除未使用变量 s 的编译器警告，实际上这里并没有做任何事情。

去除输入末尾的换行符

cpp 复制代码

cline[strlen(cline) - 1] = '\0';

strlen(cline) - 1 ：计算输入字符串的长度，并将其最后一个字符（换行符 \n）替换为字符串结束符 \0。这一步去除 fgets 读取时可能留下的换行符。

命令行解析

cpp 复制代码

int AnalyzeCommandLine(char* cline)
{
    int i = 0;
    argv[i++] = strtok(cline, DELIM);
    while (argv[i++] = strtok(NULL, DELIM));

    return i - 1;
}

AnalyzeCommandLine 函数用于解析输入的命令行字符串，并将解析出的各个命令参数存储在 argv 数组中。以下是对该函数的逐行解析：

函数定义

cpp 复制代码

int AnalyzeCommandLine(char* cline)

cline：输入的命令行字符串（用户在命令行输入的完整命令）。该字符串将会被解析为多个命令和参数。

初始化参数索引

cpp 复制代码

int i = 0;

i ：定义一个整数变量 i，用于跟踪 argv 数组的索引位置，表示当前解析的命令参数的位置。

使用 `strtok` 解析命令行

cpp 复制代码

argv[i++] = strtok(cline, DELIM);

strtok(cline, DELIM) ：strtok 是一个字符串分割函数，它通过指定的分隔符（DELIM）将 cline 字符串分割成多个子字符串。DELIM 在此代码中定义为 " \t"，即空格和制表符。

第一次调用 strtok() 时，它会返回 cline 字符串中的第一个子字符串（即命令或第一个参数）。返回值会存储在 argv[i] 中。
然后 i++ 使得 i 增加 1，指向下一个位置

继续解析命令行参数

cpp 复制代码

while (argv[i++] = strtok(NULL, DELIM));

strtok(NULL, DELIM) ：在第一次调用 strtok() 后，后续调用需要传入 NULL 作为第一个参数，表示继续从上次分割的位置开始。strtok() 会继续根据分隔符分割剩余的命令行字符串，并返回下一个子字符串。
这段代码通过 while 循环逐个提取命令行中的每个子字符串，并将其存储到 argv[i] 中。每次调用 strtok() 后，i++ 将 i 指向下一个数组位置。

返回参数的数量

cpp 复制代码

return i - 1;

i - 1 ：由于最后一次 i++ 会多加一次，因此函数返回 i - 1，即存储在 argv 数组中的参数个数（命令行中的参数数量）。

执行常规命令

cpp 复制代码

void NormalExecl(char* _argv[])
{
    pid_t id = fork();
    if (id < 0)
    {
        perror("fork");
        return;
    }
    else if (id == 0)
    {
        execvp(_argv[0], argv);
        exit(EXIT_CODE);
    }
    else
    {
        int status = 0;
        pid_t rid = waitpid(id, &status, 0);
        if (id)
        {
            LASTCODE = WEXITSTATUS(status);
        }
    }
}

函数定义

cpp 复制代码

void NormalExecl(char* _argv[])

_argv[] ：这是一个参数数组，用于传递命令及其参数。例如，_argv[0] 是命令，_argv[1] 是命令的第一个参数，依此类推。

创建子进程

cpp 复制代码

pid_t id = fork();

fork() ：fork() 函数用于创建一个新进程。它将当前进程复制一份。新进程被称为子进程，原始进程是父进程。

如果 fork()成功，它会返回两次：
- 父进程：返回子进程的进程 ID（PID）。
- 子进程：返回 0。
如果 fork() 失败，它返回负值。

错误处理

cpp 复制代码

if (id < 0)
{
    perror("fork");
    return;
}

id < 0 ：如果 fork() 返回负值，表示创建子进程失败。此时打印错误信息并返回。
perror("fork") ：输出错误信息，说明 fork() 失败的原因。

子进程执行命令

cpp 复制代码

else if (id == 0)
{
    execvp(_argv[0], argv);
    exit(EXIT_CODE);
}

id == 0 ：这是子进程中的代码块。如果 fork() 返回 0，表示当前代码在子进程中执行。

execvp(_argv[0], argv) ：子进程调用 execvp() 函数来执行命令。execvp() 会用指定的命令替换当前进程的映像。具体来说：

_argv[0] 是命令（例如 ls）。
argv 是命令的参数数组，其中包含命令和它的所有参数（例如 ls -l）。

exit(EXIT_CODE) ：如果 execvp() 失败，子进程会退出，返回 EXIT_CODE。如果 execvp() 成功，当前进程会被新的命令替代，exit() 不会被执行

父进程等待子进程结束

cpp 复制代码

else
{
    int status = 0;
    pid_t rid = waitpid(id, &status, 0);
    if (id)
    {
        LASTCODE = WEXITSTATUS(status);
    }
}

else：这是父进程中的代码块，父进程需要等待子进程结束并获取其退出状态。
int status = 0; ：定义一个变量 status 用来存储子进程的退出状态。
waitpid(id, &status, 0)

：父进程使用 waitpid()函数等待子进程的结束。waitpid() 会阻塞父进程，直到指定的子进程结束，并返回子进程的退出状态。
- id：是子进程的进程 ID，表示父进程等待这个子进程。
- &status：存储子进程退出时的状态信息。
- 0：表示父进程等待子进程的退出，不对其状态做其他操作。
LASTCODE = WEXITSTATUS(status) ：获取子进程的退出状态码并存储在 LASTCODE 中。WEXITSTATUS(status) 提取的是子进程的退出代码。

内建命令执行

cpp 复制代码

int BuildExec(char* _argv[], int _argc)
{
    if (_argc == 2 && strcmp(_argv[0], "cd") == 0)
    {
        chdir(_argv[1]);
        getpwd();
        sprintf(getenv("PWD"), "%s", pwd);
        return 1;
    }
    else if (_argc == 2 && strcmp(_argv[0], "export") == 0)
    {
        strcpy(myenv, _argv[1]);
        putenv(myenv);
        return 1;
    }
    else if (_argc == 2 && strcmp(_argv[0], "echo") == 0)
    {
        if (strcmp(_argv[1], "$?"))
        {
            printf("%d\n", LASTCODE);
            LASTCODE = 0;
        }
        else if (strcmp(_argv[1], "$"))
        {
            char* val = getenv(_argv[1] + 1);
            printf("%s\n", val);
        }
        else
        {
            printf("%s\n", _argv[1]);
        }
    }

    if (strcmp(_argv[0], "ls") == 0)
    {
        _argv[_argc++] = "--color";
        _argv[_argc] = NULL;
    }

    return 0;
}

函数定义

cpp 复制代码

int BuildExec(char* _argv[], int _argc)

_argv[]：命令行解析后参数的数组，存储命令及其参数。
_argc：命令行参数的数量。

处理 `cd` 命令

cpp 复制代码

if (_argc == 2 && strcmp(_argv[0], "cd") == 0)
{
    chdir(_argv[1]);
    getpwd();
    sprintf(getenv("PWD"), "%s", pwd);
    return 1;
}

strcmp(_argv[0], "cd") == 0 ：检查命令是否为 cd。如果 argv[0] 是 "cd"，则执行以下操作。
chdir(_argv[1]) ：改变当前工作目录到 argv[1] 指定的路径。
getpwd() ：调用 getpwd() 获取新的工作目录并更新全局变量 pwd。
sprintf(getenv("PWD"), "%s", pwd) ：更新环境变量 PWD，使其反映当前工作目录。
return 1; ：表示已经处理了 cd 命令，因此直接返回，不继续处理后面的代码。

处理 `export` 命令

cpp 复制代码

else if (_argc == 2 && strcmp(_argv[0], "export") == 0)
{
    strcpy(myenv, _argv[1]);
    putenv(myenv);
    return 1;
}

strcmp(_argv[0], "export") == 0 ：检查命令是否为 export。如果 argv[0] 是 "export"，则执行以下操作。
strcpy(myenv, _argv[1]) ：将 argv[1] 的值复制到 myenv 字符数组中。argv[1] 应该是一个环境变量的设置（例如 "VAR=value"）。
putenv(myenv) ：使用 putenv() 将 myenv 中的环境变量设置添加到当前环境中。
return 1; ：表示已经处理了 export 命令，直接返回。

处理 `echo` 命令

cpp 复制代码

else if (_argc == 2 && strcmp(_argv[0], "echo") == 0)
{
    if (strcmp(_argv[1], "$?"))
    {
        printf("%d\n", LASTCODE);
        LASTCODE = 0;
    }
    else if (strcmp(_argv[1], "$"))
    {
        char* val = getenv(_argv[1] + 1);
        printf("%s\n", val);
    }
    else
    {
        printf("%s\n", _argv[1]);
    }
}

strcmp(_argv[0], "echo") == 0 ：检查命令是否为 echo。如果是，继续执行以下代码。
strcmp(_argv[1], "$?") ：检查是否要求输出上一个命令的退出状态码。如果 argv[1] 是 "$?"，则输出上一个命令的退出代码 LASTCODE，并将 LASTCODE 重置为 0。
strcmp(_argv[1], "$") ：检查是否要求输出某个环境变量的值。如果 argv[1] 是以 $ 开头（例如 $HOME），则获取该环境变量的值并打印。
printf("%s\n", _argv[1]); ：如果既不是 "$?" 也不是以 $ 开头，则直接输出 argv[1]，即用户传递给 echo 的字符串。

特殊处理 `ls` 命令

cpp 复制代码

if (strcmp(_argv[0], "ls") == 0)
{
    _argv[_argc++] = "--color";
    _argv[_argc] = NULL;
}

strcmp(_argv[0], "ls") == 0 ：检查命令是否为 ls。如果是 ls 命令，执行以下操作。
_argv[_argc++] = "--color"; ：给 ls 命令添加 --color 参数，这样 ls 命令输出的文件列表会使用不同的颜色显示（通常是通过文件类型区分）。
_argv[_argc] = NULL; ：将数组最后一个元素设置为 NULL，确保 execvp() 在执行时能正确处理参数数组。

返回值

cpp 复制代码

return 0;

如果命令不是内建命令（cd、export、echo）或者没有进行特殊处理（如 ls），则返回 0，表示该命令需要外部执行。

主程序逻辑

cpp 复制代码

int main()
{
    while (!quit)
    {
        //命令行提示
        ineract(commondline, sizeof(commondline));
        //命令解析
        int argc = AnalyzeCommandLine(commondline);
        //指令解析
        int n = BuildExec(argv, argc);
        if (!n) NormalExecl(argv);
    }

    return 0;
}

main ：主程序循环，不断提示用户输入命令。首先获取并解析命令行输入，然后判断是否为内建命令，若不是，则调用 NormalExecl 执行外部命令。直到 quit 被设置为 1 时，程序结束。

DIY Shell：探秘进程构建与命令解析的核心原理

个人主页：chian-ocean

文章专栏-Linux

前言：

常见的 Shell 类型：

shell外壳的实现

引入头文件

宏定义

全局变量

获取当前工作目录

交互式输入处理

函数定义

获取当前工作目录并显示提示符

获取用户输入

去除输入末尾的换行符

命令行解析

函数定义

初始化参数索引

使用 strtok 解析命令行

继续解析命令行参数

返回参数的数量

执行常规命令

函数定义

创建子进程

错误处理

子进程执行命令

父进程等待子进程结束

内建命令执行

函数定义

处理 cd 命令

处理 export 命令

处理 echo 命令

特殊处理 ls 命令

返回值

主程序逻辑

使用 `strtok` 解析命令行

处理 `cd` 命令

处理 `export` 命令

处理 `echo` 命令

特殊处理 `ls` 命令