GMP模型

我将会从以下4点开始讲解GMP

1、为什么需要调度器？

2、Goroutine调度器的GMP模型的设计思想

3、调度器的设计策略

4、Go调度器调度场景过程全解析

从这四点开始讲的原因是，他们分别对应 ：

基础必要性、核心设计、运作机制、实战解析

一、为什么需要调度器？

早期的单进程操作系统，面临 2 个问题：

1、单一的执行流程，计算机只能一个任务一个任务处理。

2、进程阻塞所带来的 CPU 时间浪费。

那么能不能有多个进程来宏观一起来执行多个任务呢 ？后来操作系统就具有了最早的并发能力： 多进程并发，当一个进程阻塞的时候，切换到另外等待执行的进程，这样就能尽量把 CPU 利用起来，CPU 就不浪费了。

如下：

因为一个进程阻塞 cpu 可以立刻切换到其他进程中去执行，而且调度 cpu 的算法可以保证在运行的进程都可以被分配到 cpu 的运行时间片。这样从宏观来看，似乎多个进程是在同时被运行。

新的问题：

进程的创建、切换、销毁，都会占用很长的时间 ，CPU 虽然利用起来了，但如果进程过多，CPU 有很大的一部分都被用来进行进程调度了。

多进程、多线程确实能提高了系统的并发能力，但是在当今互联网高并发场景下，为每个任务都创建一个线程 是不现实的，因为会消耗大量的内存

(进程虚拟内存会占用 4GB $32 位操作系统$ , 而线程也要大约 4MB)。

大量的进程 / 线程出现了新的问题

高内存占用
调度的高消耗 CPU

如何解决：

好了，然后工程师们就发现，其实一个线程分为 "内核态 "线程和" 用户态 "线程。一个 "用户态线程" 必须要绑定一个 "内核态线程"，

但是 CPU 并不知道 有 "用户态线程" 的存在，它只知道 它运行的是一个 "内核态线程"

(Linux 的 PCB 进程控制块)。

继续细分下去

协程与线程的结合方式：

一、N:1

N 个协程 绑定1 个线程 ，优点就是协程在用户态线程即完成切换，不会陷入到内核态，这种切换非常的轻量快速。但也有很大的缺点，1 个进程的所有协程都绑定在 1 个线程上
缺点：

1、某个程序用不了 硬件的多核加速能力

2、一旦某协程阻塞 ，造成线程阻塞，本进程的其他协程都无法执行了，根本就没有并发的能力

二、1:1

为了解决N:1的缺点，从而设计成一个协程对应一个线程。

三、N:M

M 个协程绑定 1 个线程，是 N:1 和 1:1 类型的结合，克服了 以上 2 种模型的缺点，但实现起来最为复杂。
**注意：**协程与线程是有区别的，线程由 CPU 调度是抢占式的，协程由用户态调度是协作式的，一个协程让出 CPU 后，才执行下一个协程。

Go 语言的协程 goroutine

Go 为了提供更容易使用的并发方法 ，使用了 goroutine 和 channel。

goroutine 来自协程的概念，让一组可复用的函数运行在一组线程之上，即使有协程阻塞，该线程的其他协程也可以被 runtime 调度，转移到其他可运行的线程上。

最关键的是，程序员看不到 这些底层的细节，这就降低了编程的难度，提供了更容易的并发。

Go 中，协程被称为 goroutine ，它非常轻量 ，一个 goroutine只占几 KB ，并且这几 KB 就足够 goroutine 运行完，这就能在有限的内存空间内支持大量 goroutine，支持了更多的并发 。虽然一个 goroutine 的栈只占几 KB，但实际是可伸缩 的，如果需要更多内容，runtime 会自动为 goroutine 分配。
Goroutine 特点：

占用内存更小（几 kb）
调度更灵活 (runtime 调度)

老版本GMP

Go 目前使用的调度器是 2013 年重新设计的

老调度器有几个缺点：

1、创建、销毁、调度 G 都需要每个 M 获取锁，这就形成了激烈的锁竞争。

2、M 转移 G 会造成延迟和额外的系统负载 。比如当 G 中包含创建新协程的时候，M 创建了 G'，为了继续执行 G，需要把 G'交给 M'执行，也造成了很差的局部性，因为 G'和 G 是相关的，最好放在 M 上执行，而不是其他 M'。

3、系统调用 (CPU 在 M 之间的切换) 导致频繁的线程阻塞和取消阻塞操作增加了系统开销。

二、Goroutine调度器的GMP模型的设计思想

面对之前调度器的问题，Go 设计了新的调度器。

在新调度器中，出列 M (thread) 和 G (goroutine)，又引进了 P (Processor)。

Processor，它包含了运行 goroutine 的资源，如果线程想运行 goroutine，必须先获取 P，P 中还包含了可运行的 G 队列。

GMP模型

（上方为图示）

在 Go 中，线程是运行 goroutine 的实体，调度器的功能是把可运行的 goroutine 分配到工作线程上。

全局队列（Global Queue）：存放等待运行的 G。 P 的本地队列：同全局队列类似，存放的也是等待运行的 G，存的数量有限，不超过 256 个。新建 G'时，G'优先加入到 P 的本地队列，如果队列满了，则会把本地队列中一半的 G 移动到全局队列。
P 列表：所有的 P 都在程序启动时创建，并保存在数组中，最多有 GOMAXPROCS(可配置) 个。
M：线程想运行任务就得获取 P，从 P 的本地队列获取 G，P 队列为空时，M 也会尝试从全局队列拿一批 G 放到 P 的本地队列，或从其他 P 的本地队列偷一半放到自己 P 的本地队列。M 运行 G，G 执行之后，M 会从 P 获取下一个 G，不断重复下去。
Goroutine 调度器 和 OS 调度器是通过 M 结合起来的，每个 M 都代表了 1 个内核线程，OS 调度器负责把内核线程分配到 CPU 的核上执行。

有关 P 和 M 的个数问题

1、P 的数量：

由启动时环境变量 $GOMAXPROCS 或者是由 runtime 的方法 GOMAXPROCS() 决定。这意味着在程序执行的任意时刻都只有$ GOMAXPROCS 个 goroutine 在同时运行。

2、M 的数量:

go 语言本身的限制：go 程序启动时，会设置 M 的最大数量，默认 10000. 但是内核很难支持这么多的线程数，所以这个限制可以忽略。
runtime/debug 中的 SetMaxThreads 函数，设置 M 的最大数量
一个 M 阻塞了，会创建新的 M。

3、M 与 P 的数量没有绝对关系，一个 M 阻塞，P 就会去创建或者切换另一个 M，所以，即使 P 的默认数量是 1，也有可能会创建很多个 M 出来。

P 和 M 何时会被创建

1、P 何时创建： 在确定了 P 的最大数量 n 后，运行时 系统会根据这个数量创建 n 个 P。

2、**M 何时创建：**没有足够的 M 来关联 P 并运行其中的可运行的 G。比如所有的 M 此时都阻塞住了，而 P 中还有很多就绪任务，就会去寻找空闲的 M，而没有空闲的，就会去创建新的 M。

三、调度器的设计策略

复用线程：避免频繁的创建、销毁线程，而是对线程的复用。

1）work stealing 机制

当本线程无可运行的 G 时，尝试从其他线程绑定的 P 偷取 G，而不是销毁线程。

2）hand off 机制

当本线程因为 G 进行系统调用阻塞时，线程释放绑定的 P，把 P 转移给其他空闲的线程执行。

**利用并行：**GOMAXPROCS 设置 P 的数量，最多有 GOMAXPROCS 个线程分布在多个 CPU 上同时运行。GOMAXPROCS 也限制了并发的程度，比如 GOMAXPROCS = 核数/2，则最多利用了一半的 CPU 核进行并行。

**抢占：**在 coroutine 中要等待一个协程主动让出 CPU 才执行下一个协程，在 Go 中，一个 goroutine 最多占用 CPU 10ms，防止其他 goroutine 被饿死，这就是 goroutine 不同于 coroutine 的一个地方。

**全局 G 队列：**在新的调度器中依然有全局 G 队列，但功能已经被弱化了，当 M 执行 work stealing 从其他 P 偷不到 G 时，它可以从全局 G 队列获取 G。

go func () 调度流程

具体过程：

从上图我们可以分析出几个结论：

1、我们通过 go func () 来创建一个 goroutine；

2、有两个存储 G 的队列，一个是局部调度器 P 的本地队列、一个是全局 G 队列。新创建的 G 会先保存在 P 的本地队列中，如果 P 的本地队列已经满了就会保存在全局的队列中；

3、G 只能运行在 M 中，一个 M 必须持有一个 P，M 与 P 是 1：1 的关系。M 会从 P 的本地队列弹出一个可执行状态的 G 来执行，如果 P 的本地队列为空，就会想其他的 MP 组合偷取一个可执行的 G 来执行；

4、一个 M 调度 G 执行的过程是一个循环机制；

5、当 M 执行某一个 G 时候如果发生了 syscall 或则其余阻塞操作，M 会阻塞，如果当前有一些 G 在执行，runtime 会把这个线程 M 从 P 中摘除 (detach)，然后再创建一个新的操作系统的线程 (如果有空闲的线程可用就复用空闲线程) 来服务于这个 P；

6、当 M 系统调用结束时候，这个 G 会尝试获取一个空闲的 P 执行，并放入到这个 P 的本地队列。如果获取不到 P，那么这个线程 M 变成休眠状态，加入到空闲线程中，然后这个 G 会被放入全局队列中。

四、Go调度器调度场景过程全解析

我们这里会通过11个小案例，为大家扫盲。

通过实际场景，加深对GMP的了解

(1) 场景 1 ---局部性

P 拥有 G1，M1 获取 P 后开始运行 G1，G1 使用 go func() 创建了 G2，为了局部性 G2 优先加入到 P1 的本地队列。

(2) 场景 2 --- 线程M复用

G1 运行完成后 (函数：goexit)，M 上运行的 goroutine切换为 G0 ，G0 负责调度时协程的切换（函数：schedule）。从 P 的本地队列取 G2 ，从 G0 切换到G2 ，并开始运行 G2 (函数：execute)。实现了线程 M1 的复用。

(3) 场景 3 --- 队列溢出问题

假设每个 P 的本地队列只能存 3 个 G。G2 要创建了 6 个 G，前 3 个 G（G3, G4, G5）已经加入 p1 的本地队列，p1 本地队列满了。（溢出的，直接进入全局队列）

(4) 场景 4 ---负载不均衡

**理论上：**G2 在创建 G7 的时候，发现 P1 的本地队列已满，需要执行负载均衡 (把 P1 中本地队列中前一半的 G，还有新创建 G 转移到全局队列)

**实现中：**并不一定是新的 G，如果 G 是 G2 之后就执行的，会被保存在本地队列，利用某个老的 G 替换新 G 加入全局队列

**注：**这些 G 被转移到全局队列时，会被打乱顺序。所以 G3,G4,G7 被转移到全局队列。

(5) 场景 5 ---局部调度性

G2 创建 G8 时，P1 的本地队列未满，所以 G8 会被加入到 P1 的本地队列。

G8 加入到 P1 点本地队列的原因还是因为 P1 此时在与 M1 绑定，

而 G2 此时是 M1 在执行。所以 G2 创建的新的 G 会优先放置到自己的 M 绑定的 P 上。

(6) 场景 6 ---如何提高效率

**规定：**在创建 G 时，运行的 G 会尝试唤醒其他空闲的 P 和 M 组合去执行。

假定 G2 唤醒了 M2，M2 绑定了 P2，并运行 G0，但 P2 本地队列没有 G，M2 此时为自旋线程（没有 G 但为运行状态的线程，不断寻找 G）。

(7) 场景 7 ---全局队列负载均衡

M2 尝试从全局队列(简称 "GQ") 取一批 G 放到 P2 的本地队列（函数：findrunnable()）。M2 从全局队列取的 G 数量符合下面的公式：

n = min(len(GQ)/GOMAXPROCS + 1, len(GQ)/2)

至少从全局队列取 1 个 g，但每次不要 从全局队列移动太多的 g 到 p 本地队列，给其他 p 留点。这是从全局队列到 P 本地队列的负载均衡。

假定我们场景中一共有 4 个 P(GOMAXPROCS 设置为 4) 最多就能用 4 个 P 来供 M 使用
所以 M2 只从能从全局队列取 1 个 G（即 G3）移动 P2 本地队列

(8) 场景 8 ---P间负载不均

假设 G2 一直在 M1 上运行，经过 2 轮后，M2 已经把 G7、G4 从全局队列获取到了 P2 的本地队列并完成运行，全局队列和 P2 的本地队列都空了，如场景 8 图的左半部分。

（偷取一半stealing）

(9) 场景 9 ---线程重建延时问题

G1 本地队列 G5、G6 已经被其他 M 偷走并运行完成，当前 M1 和 M2 分别在运行 G2 和 G8，M3 和 M4 没有 goroutine 可以运行，M3 和 M4 处于自旋状态，它们不断寻找 goroutine。

为什么要让 m3 和 m4 自旋，自旋本质是在运行，线程在运行却没有执行 G，就变成了浪费 CPU . 为什么不销毁 现场，来节约 CPU 资源。因为创建和销毁 CPU 也会浪费时间 ，我们希望当有新 goroutine 创建时，立刻能有 M 运行它，如果销毁再新建就增加了时延，降低了效率。当然也考虑了过多的自旋线程是浪费 CPU ，所以系统中最多有GOMAXPROCS 个自旋的线程 (当前例子中的 GOMAXPROCS=4，所以一共 4 个 P)，多余的没事做线程会让他们休眠。

(10) 场景 10 --- G阻塞后 P闲置

假定当前除了 M3 和 M4 为自旋线程 ，还有 M5 和 M6 为空闲的线程 (没有得到 P 的绑定，注意我们这里最多就只能够存在 4 个 P，所以 P 的数量应该永远是 M>=P , 大部分都是 M 在抢占需要运行的 P)，G8 创建了 G9，G8 进行了阻塞的系统调用 ，M2 和 P2 立即解绑 ，P2 会执行以下判断： 如果 P2 本地队列有 G、全局队列有 G 或有空闲的 M，P2 都会立马唤醒 1 个 M 和它绑定，
否则 P2 则会加入到空闲 P 列表，等待 M 来获取可用的 p。本场景中，P2 本地队列有 G9，可以和其他空闲的线程 M5 绑定。

(11) 场景 11 ---解决系统调用后复用

G8 创建了 G9，假如 G8 进行了非阻塞系统调用。

M2 和 P2 会解绑，但 M2 会记住 P2，然后 G8 和 M2 进入系统调用状态。当 G8 和 M2 退出系统调用时，会尝试获取 P2，如果无法获取，则获取空闲的 P，如果依然没有，G8 会被记为可运行状态，并加入到全局队列，M2 因为没有 P 的绑定而变成休眠状态 (长时间休眠等待 GC 回收销毁)。

拓展知识：

补充1：

线程重建为什么会延时？

线程重建需要操作系统执行以下操作：

**资源分配：**为新线程分配栈内存、寄存器等资源。

**上下文初始化：**设置线程的执行环境（如程序计数器、栈指针）。

**系统调用：**通过 clone() 等系统调用向操作系统申请线程资源。

这些操作的耗时约为微秒级（如 Linux 下创建线程的开销约为 1-2 微秒），在高并发场景下会累积成性能瓶颈。

补充2：

1、系统调用（去政府部门办事）你的程序需要操作系统帮忙做事（比如读文件、联网）就像你去政府部门办证件，必须亲自跑一趟

2、阻塞系统调用（排队等叫号）政府部门告诉你："前面还有50人，坐着等吧"

你的程序（Goroutine）卡住不能动，CPU空转干等

常见例子：

读取慢速硬盘文件等网络数据包（比如访问淘宝API）

补充3：

GMP之 P-M

**1、P（逻辑处理器）：**它更像一个 "资源容器" 和 "队列管理者"，主要职责是：维护一个本地 G 队列（存放就绪的 G）；持有运行 G 所需的资源（如栈空间、线程本地存储等）；作为 M 绑定的 "许可证"------M 必须绑定 P 才能运行 G（即 "M 需要挂靠 P 才能拥有调度权"）。但 P 本身不具备执行能力（它不是线程，不参与 CPU 调度），只是一个逻辑上的调度单元和资源集合。

2、M（操作系统线程）： 它是实际的执行载体（由操作系统调度的物理线程），负责：

执行 G 的代码（真正在 CPU 上跑指令）；

当 G 需要运行时，从 P 的本地队列中 "取 G"；

当本地队列空了，主动去全局队列或其他 P 的本地队列 "偷 G"（工作窃取）。

M 的核心能力是 "执行"，所有需要实际操作（如取 G、运行 G、切换 G）的动作，都必须由 M 完成。

M 是唯一具备执行能力的实体 （操作系统线程），而 P 的角色是 "资源管理者" 和 "队列容器"，负责提供 G 的存放和运行环境。这种分工既明确了职责（P 管资源，M 管执行），又通过 P 的本地队列分散了锁竞争

优于老版本的地方。

补充4：

源码查找：

补充5：

M阻塞的三种情况

1、系统调用阻塞 (System Call Blocking)

Goroutine 执行需要内核参与的操作（如网络 I/O、文件读写、sleep 等）

2、同步原语阻塞 (Synchronization Primitive Blocking)

Goroutine 等待同步操作（如通道、锁、条件变量）完成，导致 M 阻塞。

运行时调度阻塞 (Runtime Scheduling Blocking)

子场景 1：GC 的 STW (Stop The World)

子场景 2：无 G 可执行时的休眠

而如下两种情况：

1、线程分配给G的cpu用完了。

2、进程分配给线程的cpu用完了，线程被迫阻塞。

注意：

M 线程的阻塞 （Go 运行时层面）和**时间片阻塞（OS 层面）**是两个独立且不同层级的概念，前者是为了调度效率，后者是为了任务公平。

GMP模型

一、为什么需要调度器？

新的问题：

如何解决：

协程与线程的结合方式：

一、N:1

二、1:1

三、N:M

Go 语言的协程 goroutine

老版本GMP

二、Goroutine调度器的GMP模型的设计思想

GMP模型

有关 P 和 M 的个数问题

P 和 M 何时会被创建

三、调度器的设计策略

1）work stealing 机制 ​

2）hand off 机制 ​

go func () 调度流程

具体过程：

四、Go调度器调度场景过程全解析

(1) 场景 1 ---局部性

(2) 场景 2 --- 线程M复用

(3) 场景 3 --- 队列溢出问题

(4) 场景 4 ---负载不均衡

(5) 场景 5 ---局部调度性

(6) 场景 6 ---如何提高效率

(7) 场景 7 ---全局队列负载均衡

(8) 场景 8 ---P间负载不均

(9) 场景 9 ---线程重建延时问题

(10) 场景 10 --- G阻塞后 P闲置

(11) 场景 11 ---解决系统调用后复用

拓展知识：

补充1：

线程重建为什么会延时？

补充2：

补充3：

GMP之 P-M

补充4：

源码查找：

补充5：

M阻塞的三种情况

而如下两种情况：

注意：

1）work stealing 机制

2）hand off 机制