《深入Linux内核架构》第2章 进程管理和调度 (3)

目录

[2.5 调度器的实现](#2.5 调度器的实现)

[2.5.1 概观](#2.5.1 概观)

[2.5.2 数据结构](#2.5.2 数据结构)

[2.5.3 处理优先级](#2.5.3 处理优先级)

[2.5.3.1 nice和prior](#2.5.3.1 nice和prior)

[2.5.3.2 vruntime](#2.5.3.2 vruntime)

[2.5.3.3 weight权重](#2.5.3.3 weight权重)

[2.5.4 核心调度器](#2.5.4 核心调度器)


2.5 调度器的实现

调度器的任务:

  1. 执行调度策略。

  2. 执行上下文切换。

无论用户态抢占,还是内核态抢占,最终都调用schedule()函数,执行调度操作,实现进程切换。

调度分为:主动调用,周期调度

  1. 主动调用:schedule()
  1. 周期调度:时钟中断调用

一个进程一直while(1)不睡眠地执行任务,就是通过时钟中断,来调度其他进程的。

2.5.1 概观

CFS:完全公平调度器,调度器的一种。

红黑树上不是task_struct,而是task_struct中的se成员,即调度实体。

调试:

#cat /proc/sched_debug 内容很多

2.5.2 数据结构

每个进程只能属于一个调度器。

常用调度器:

CFS:完全公平调度器,用于普通进程。

实时调度器:用于实时进程。

每种调度器通常都要实现:

主调度器:scheduler

周期调度器:scheduler tick

struct task_struct {

    int     prio;         //调度器最终参考值,通常等于normal_prio(除非临时提高优先级RT_mutex)

    int     normal_prio; // CFS通过static_prio计算,RT通过rt_priority计算

    int     static_prio; //用于普通进程,范围100-139
    
    unsigned int         rt_priority; //用于实时进程,范围0-99

    struct sched_class     *sched_class; //所属调度器类

    struct sched_entity     se; //调度实体,不是指针

    unsigned int             policy; //SCHED_NORMAL/SCHED_IDLE /SCHED_BATCH /SCHED_RR/SCHED_FIFO

    cpumask_t                 cpus_allowed; 该进程可在哪些CPU上运行

}
static_prio:用于普通进程,系统启动时分配,可通过nice命令修改,否则一直不变。

调度器类有:

CFS:

完全公平调度器。

struct sched_class fair_sched_class 普通进程使用

RT:

实时调度器

struct sched_class rt_sched_class 实时进程使用

STOP:

struct sched_class stop_sched_class

IDLE:

struct sched_class idle_sched_class

每种调度器类有各自策略policy:

CFS:

SCHED_NORMAL:默认策略。

SCHED_IDLE:CPU空闲时才允许进程,优先级较低。如后台任务

SCHED_BATCH:批处理任务。

RT:

SCHED_RR:基于时间片轮询。

SCHED_FIFO:任务一直运行,直到它自己主动放弃CPU。

struct sched_class { //每种调度器都要实现下列函数指针

    const struct sched_class *next;

    void (*enqueue_task) (struct rq *rq, struct task_struct *p, int flags);

    void (*dequeue_task) (struct rq *rq, struct task_struct *p, int flags);

    void (*yield_task) (struct rq *rq);

    void (*check_preempt_curr) (struct rq *rq, struct task_struct *p, int flags);

    struct task_struct * (*pick_next_task) (struct rq *rq,struct task_struct *prev);

    void (*put_prev_task) (struct rq *rq, struct task_struct *p);

    int (*select_task_rq)(struct task_struct *p, int task_cpu, int sd_flag, int flags);

    void (*migrate_task_rq)(struct task_struct *p, int next_cpu);

    void (*set_cpus_allowed)(struct task_struct *p, const struct cpumask *newmask);

    void (*rq_online)(struct rq *rq);

    void (*rq_offline)(struct rq *rq);

    void (*set_curr_task) (struct rq *rq);

    void (*task_tick) (struct rq *rq, struct task_struct *p, int queued);

};

enqueue_task:将进程加入到就绪队列中。

dequeue_task:从就绪队列中删除进程。

yield_task:主动放弃CPU,如CFS中会把调度实体放在红黑树最右端。

pick_next_task:根据调度策略从就绪队列中选择下一个要执行的任务。

check_preempt_curr:检查当前运行的进程是否应该被抢占,以便让更高优先级的进程运行。

select_task_rq:多核系统中,为进程选择合适CPU。

set_curr_task:更新当前正运行进程的调度信息。如修改调度策略,更新统计信息。

task_tick:系统周期性时钟中断时调用。用于更新进程的运行时间和统计信息。

struct rq {         //运行队列,即就绪队列,每个CPU都有一个。

    unsigned long nr_running;     //该CPU就绪的进程总数,包括cfs,RT就绪队列中进程

    unsigned long cpu_load[5]; //数组,1 分钟、5 分钟、15 分钟等5个平均负载数据。

    struct load_weight load;     //该CPU可运行进程的权重总和,用于多处理器负载均衡。

    struct cfs_rq cfs;         //cfs就绪队列

    struct rt_rq rt;          //rt就绪队列

    struct task_struct *curr; //该CPU正运行的进程

    u64 clock;

    int cpu;     //该就绪队列所属CPU

}

idle、stop调度类的就绪队列管理方式不同,所以struct rq中没有idle,stop的子就绪队列。

每个CPU都有自身就绪队列,定义方法:

DECLARE_PER_CPU(struct rq, runqueues);

一个进程在同一时刻只能在一个CPU的struct rq中。

如何知道一个进程运行在哪个CPU?

task_struct -> stack得到thread_info,thread_info存储当前运行的CPU

struct thread_info {

    __u32 cpu;

}

相关API:

返回指定CPU的就绪队列:

struct rq *rq = cpu_rq(cpu);

返回当前CPU的就绪队列:

struct rq *rq = this_rq();

#define this_rq() (&__get_cpu_var(runqueues))

返回当前进程所在CPU的就绪队列:

task_rq(p)

返回当前CPU正运行的进程:

cpu_curr(cpu)

调度实体:

struct sched_entity { //调度实体,调度系统中代表一个进程,被task_struct包含

    struct load_weight load;     负载权重

    struct rb_node run_node;     用于把调度实体连接到CFS就绪队列的红黑树

    unsigned int on_rq;         该调度实体是否在就绪队列上

    u64 exec_start;             当前实体上次被调度执行的时间

    u64 sum_exec_runtime;         当前实体总的执行时间,update_curr函数会周期更新

    u64 vruntime;             虚拟运行时间,用于在红黑树中排队,决定调度先后顺序

    u64 prev_sum_exec_runtime;

        //sum_exec_runtime - prev_sum_exec_runtime就是进程本次在CPU上执行的时间。

    struct cfs_rq *cfs_rq;     当前调度实体属于的cfs_rq

    u64 nr_migrations;         迁移次数。多核中,可能因为负载均衡而迁移到其它CPU上。

};

通过se的struct rb_node run_node成员,把进程挂在红黑树上,被调度器从树的左边往右依次调度。
struct task_struct {

    struct sched_entity se;

}

CFS调度类的yield_task_fair,enqueue_entity,entity_tick函数指针都会调用update_curr函数

update_curr函数:

用于计算和更新vruntime。

2.5.3 处理优先级

2.5.3.1 nice和prior

nice命令:

作用:更改普通进程的优先级(对应static_prior),不能用于实时进程。

nice值范围:-20到19。

优先级范围:

0-139:0的优先级最高。

0-99:实时进程的优先级。

100-139:普通进程的优先级

static_prio = nice值+120

默认nice值为0,默认static_prio=120

struct task_struct {

    int static_prio; //静态优先级,普通进程,范围100-139,对应nice值-20 到19

    unsigned int rt_priority; //实时进程的优先级,范围0-99

    int normal_prio; // CFS通过static_prio计算,RT通过rt_priority计算

    int prio;

}

task_struct->static_prio:

静态优先级,即普通进程的优先级。

值范围:100-139,默认值为120。

计算:static_prio = NICE_TO_PRIO(nice); //即static_prio = nice+120

修改:可通过nice命令或sched_setscheduler函数修改。

task_struct->rt_priority:

实时优先级,即实时进程的优先级。

值范围:0-99

task_struct->normal_prio:

普通优先级。

普通进程:normal_prio = static_prio

实时进程:normal_prio = 99 - rt_priority

task_struct->prio:

动态优先级。调度器最终使用。

计算:通常直接等于normal_prio。

特殊情况:

优先级反转:低优先级进程A使用RT_mutex上锁后,高优先级进程B等待该锁,此时A进程临时拥有B进程的高优先级,可让A尽早执行,尽早释放锁。此时prio就不等于normal_prio。

总结如下图:

修改普通进程的nice,可影响运行时间比例。

应用层nice -> prio - > weight -> 最终得到进程可运行时间比例。

2.5.3.2 vruntime

struct sched_entity {

    u64 vruntime;

}

普通进程的CFS调度器使用,而实时进程不用vruntime。

vruntime:表示进程虚拟运行时间。

进程的vruntime值作用:

决定了在CFS红黑树中的位置,树的最左端节点的vruntime最小。

CFS调度器选择红黑树最左进程调度。

为什么叫虚拟运行时间?

根据nice把实际运行时间放大缩小。

计算方法:vruntime += delta_exec * NICE_0_LOAD / weight

delta_exec: 最近一次实际执行时间。

NICE_0_LOAD:固定值。nice值为0对应的权重值

weight:当前进程的nice值对应的权重值。

下节讲如何查找nice对应权重weight。

sum_exec_runtime更新:

curr->se.sum_exec_runtime += delta_exec;

撤销CPU时,prev_exec_runtime = sum_exec_runtime

sum_exec_runtime不清0,一直递增。

CFS起初为进程分配相同的vruntime,子进程会继承父进程的vruntime。

当一个进程进入内核空间执行系统调用或发生中断时,自动将处理器的状态信息(包括通用寄存器、程序计数器PC、栈指针SP等)保存到当前进程的内核栈中的pt_regs结构体中。

因为寄存器不一样,所以不同CPU架构定义的struct pt_regs不一样。

x86架构:

struct pt_regs {

    unsigned long ebx;

    unsigned long ecx;

    unsigned long edx;

    unsigned long esi;

    unsigned long edi;

    unsigned long ebp;

    unsigned long eax;

    unsigned long xds;

    unsigned long xes;

    unsigned long orig_eax;

    unsigned long eip;

    unsigned long xcs;

    unsigned long eflags;

    unsigned long esp; 栈指针

    unsigned long xss;

};

ARM架构:

struct pt_regs {

    long uregs[18];

};


#define ARM_cpsr uregs[16]

#define ARM_pc uregs[15]

#define ARM_lr uregs[14]

#define ARM_sp uregs[13]

#define ARM_ip uregs[12]

#define ARM_fp uregs[11]

#define ARM_r10 uregs[10]

#define ARM_r9 uregs[9]

#define ARM_r8 uregs[8]

#define ARM_r7 uregs[7]

#define ARM_r6 uregs[6]

#define ARM_r5 uregs[5]

#define ARM_r4 uregs[4]

#define ARM_r3 uregs[3]

#define ARM_r2 uregs[2]

#define ARM_r1 uregs[1]

#define ARM_r0 uregs[0]

#define ARM_ORIG_r0 uregs[17]

2.5.3.3 weight权重

实时进程的权重比普通进程更高。

struct sched_entity {         //被task_struct包含

        struct load_weight     load;

}

struct load_weight {

    unsigned long     weight;        权重,用来确定进程运行时间比例

    unsigned long     inv_weight;     权重倒数,方便做除法计算

};

根据进程prio值计算weight和inv_weight:

void set_load_weight(struct task_struct *p)

{

    int prio = p->static_prio - MAX_RT_PRIO;     //MAX_RT_PRIO=100

    struct load_weight *load = &p->se.load;

    load->weight = prio_to_weight[prio];         数组

    load->inv_weight = prio_to_wmult[prio];      数组

}

通过prio_to_weight数组把prio转换为weight,而weight最终影响CPU运行时间比例。

static const int prio_to_weight[40] = {    //将nice值转化为prio后,作为数组index。

    /* -20 */ 88761, 71755, 56483, 46273, 36291,

    /* -15 */ 29154, 23254, 18705, 14949, 11916,

    /* -10 */ 9548, 7620, 6100, 4904, 3906,

    /* -5 */ 3121, 2501, 1991, 1586, 1277,

    /* 0 */ 1024, 820, 655, 526, 423,

    /* 5 */ 335, 272, 215, 172, 137,

    /* 10 */ 110, 87, 70, 56, 45,

    /* 15 */ 36, 29, 23, 18, 15,

};    数组nice/prio差1,se的weight相差大约1.25倍,即CPU时间比例相差1.25倍。

进程加入CPU就绪队列时,把该进程权重加入CPU就绪队列总权重中。

进程从CPU就绪队列移除时,就从CPU就绪队列总权重减去该进程权重。

const struct sched_class fair_sched_class = {

    .enqueue_task = enqueue_task_fair,

    .dequeue_task = dequeue_task_fair,

}

enqueue_task_fair
    ->  enqueue_entity 
       ->  update_load_add(&cfs_rq->load, se->load.weight);

CPU进程总权重用于多CPU间负载均衡。

参数:/proc/sys/kernel/sched_latency_ns

即调度延迟,或调度周期,就绪队列的所有进程在该周期内至少有运行一次。

单位:纳秒。

默认值:24000000,24毫秒

举例:调度延迟是24毫秒,如果有4个进程,则每个进程可执行6毫秒。

参数:/proc/sys/kernel/sched_min_granulariry_ns

即调度最小粒度,每次调度后进程至少执行的时间。

单位:纳秒。

默认值:3000000,3毫秒

参数:/proc/sys/kernel/sched_nr_latency

含义:一个调度延迟周期内可处理的最大进程数。

static u64 sched_slice(struct cfs_rq *cfs_rq, struct sched_entity *se)

计算一个进程se在本轮调度周期应分得的真实运行时间。

计算公式:

进程的时间片= (调度周期 ×(进程se权重 / CFS运行队列中进程权重总和))

__sched_period函数:

作用:获取调度周期值,即sysctl_sched_latency = /proc/sys/kernel/sched_latency_ns

nice prior weight总结图:

2.5.4 核心调度器

核心调度器分为:

周期性调度器:scheduler_tick

主调度器:scheduler

周期性调度器:scheduler_tick

时钟周期性调度器,根据HZ自动调用。如果为了省电,可关闭该调度器。

任务:

1 更新调度器clock。

  1. 更新当前runqueue的clock。用于辅助计算进程上次调度运行时长

  2. 执行不同调度类中的task_tick回调函数。

curr->sched_class->task_tick(rq, curr);

周期任务有:

CFS会更新进程vruntime

如果进程已执行足够时间或更高优先级的进程需运行时,当前进程应立即让出CPU,此时可给该进程thread_info中flag设置TIF_NEED_RESCHED标志位。

  1. 更新该就绪队列的CPU load。

注意:周期性调度器scheduler_tick不会去主动调度其他进程,而是为当前进程设置TIF_NEED_RESCHED标志位,tick时钟中断返回时检测到设置了该标志位,则调度其他进程。

__sched前缀修饰的变量或函数:

存储在对应elf文件中.sched.text段,当coredump时可忽略.sched.text相关调用。

主调度器:scheduler

  1. preempt_disable( );

关闭内核抢占

  1. pick_next_task:

选择下一个进程

  1. context_switch:

进程上下文切换,包含:

switch_mm : 加载新地址空间,更新页表,刷出TLB(若是内核线程,无需刷出TLB)

switch_to: 从进程thread_info中保存的信息,恢复CPU寄存器,内核栈等。

进程的寄存器内容,进入内核态时保存在它的内核栈中。

内核抢占:

即是否让出CPU,让别的进程执行。

如何判断需要抢占?

检查进程thread_info的flags成员是否设置TIF_NEED_RESCHED,若设置,则让出CPU。

scheduler和scheduler_tick函数都会根据需要设置TIF_NEED_RESCHED标志。并在下一个抢占点到来时检查该标志,调度其他进程,完成抢占操作。

抢占点:

中断处理程序的返回到内核态,如时钟中断。

系统调用结束返回用户空间。

不允许抢占:响应慢,吞吐高。

允许抢占:响应快,吞吐低。

浪费部分CPU在进程切换,所以导致吞吐低。

ARM中:

struct thread_info {

    unsigned long     flags;

    int               preempt_count;

}

flags的TIF_NEED_RESCHED标志:

是否让出CPU,让其他进程抢占。

preempt_count:一个计数器。

大于 0 时:即当前进程在临界区或执行关键操作,禁止其他更高优先级的任务抢占当前线程。

等于0:表示允许抢占。

举例:

spin_lock函数将preempt_count+1

spin_unlock函数preempt_count-1

一个进程用spin_lock上锁后,不允许其他进程无法抢占当前进程。

每次内核前函数检查preempt_count值。

惰性FPU:如果没有使用扩充寄存器(如浮点寄存器),不会保存和恢复。

举例:A进程使用了浮点寄存器,切换到B进程,但B进程未使用,不替换寄存器值,节省恢复寄存器时间。

相关推荐
存储服务专家StorageExpert4 分钟前
DELL SC compellent存储的四种访问方式
运维·服务器·存储维护·emc存储
hakesashou41 分钟前
python如何比较字符串
linux·开发语言·python
Ljubim.te1 小时前
Linux基于CentOS学习【进程状态】【进程优先级】【调度与切换】【进程挂起】【进程饥饿】
linux·学习·centos
cooldream20091 小时前
Linux性能调优技巧
linux
大G哥1 小时前
记一次K8S 环境应用nginx stable-alpine 解析内部域名失败排查思路
运维·nginx·云原生·容器·kubernetes
feng_xiaoshi1 小时前
【云原生】云原生架构的反模式
云原生·架构
醉颜凉1 小时前
银河麒麟桌面操作系统修改默认Shell为Bash
运维·服务器·开发语言·bash·kylin·国产化·银河麒麟操作系统
QMCY_jason2 小时前
Ubuntu 安装RUST
linux·ubuntu·rust
慕雪华年2 小时前
【WSL】wsl中ubuntu无法通过useradd添加用户
linux·ubuntu·elasticsearch
苦逼IT运维2 小时前
YUM 源与 APT 源的详解及使用指南
linux·运维·ubuntu·centos·devops