【声明】本博客所有内容均为个人业余时间创作,所述技术案例均来自公开开源项目(如Github,Apache基金会),不涉及任何企业机密或未公开技术,如有侵权请联系删除
背景
上篇 blog
【Ubuntu】【Gitlab】拉出内网 Web 服务:http.server 单/多线程分析(五)
分析了 Python GIL 锁在多线程环境下,对 IO 操作(比如 Web 服务并发),仍然有效果的原因,下面继续
Python http.server 单/多线程分析
OK,前面分析了 Python 的 GIL 锁限制了对于一个 Python 进程,即使在多线程环境下,也不能并行的能力,这里需要注意下,并行和并发的区别
- 并发 :表示多个任务交替推进,宏观上看这些多个任务就是在同时进行(即使 CPU 交替执行,其时间依然很短,给人感觉就是在同时进行一样),不需要 CPU 多核,靠线程切换就能完成 ,所以即使 Python 进程被 GIL 限制,其多线程能力依然对提升 Web 性能依然有效的原因

- 并行 :表示多个任务真正同时进行(物理上同时运行),需要多核,不能靠多线程切换完成,适合 CPU 密集型任务的处理 ,此时 Python 的 GIL 锁就起作用了,GIL 锁限制了在同一时刻,只能有一个线程在真正执行,也就是说,一个 Python 程序只能用一个 CPU 核来执行任务

线程 1 和线程 2,此时可以真正物理上同时使用 CPU 核心来执行任务,而不需要等待

可以看到,并发和并行不是一回事,就好比一个人边煮饭边听音乐(通过切换注意力实现任务的并发),而并行是两个人,一个人煮饭,一个人听音乐,这个就是真正的同时进行,所以要注意,高并发 ≠ 高并行
OK,下面再分析下 GIL 锁限制 Python 字节码并行执行的原因
首先,CPython 使用引用计数(Reference Counting) 管理内存 ,在 CPython 中,每个 Python 对象(比如 int,list,str)都有一个 ob_refcnt 字段,记录有多少变量,或容器引用它(注意,引用计数属于 CPython 内部实现机制,需查看解释器源码才能看到 )

举个例子:
- 当给
a = [1, 2, 3]赋值时,列表对象的ob_refcnt为 1 - 然后令
b = a,此时ob_refcnt会变成 2 - 当
a或b被删除或重新赋值时,ob_refcnt会减 1 - 当
ob_refcnt == 0时,CPython 会立即释放内存,而不是等垃圾回收
这种机制简单高效,但有一个致命问题,ob_refcnt 的加减不是原子操作!
如果没有 GIL 锁,假设两个线程同时操作同一对象,该对象初始值是 2,俩线程都要对其进行减 1 操作

可以看到,ob_refcnt 被两个线程减引用操作,实际应该变成 0,因为两次减 1,但结果却是 1,此时该对象永远不会被释放,就会造成内存泄漏,更严重的是,如果引用计数错误地编程负数或乱掉,还可能直接导致解释器崩溃(segfault),所以 CPython 必须保证任何修改 Python 对象引用计数的操作,必须是线程安全的
为了解决这个问题,CPython 在其发展的初期(上世纪 90 年代)选择了加一把全局大锁(GIL),所有涉及 Python 对象的操作(包括引用计数增减)都必须持有 GIL,同一时刻只有一个线程能持有 GIL,也就不可能出现并行修改,并且其实现简单,对单线程性能基本无影响
从本质上,GIL 是个懒人方案(也是最简单的方案),用一把锁保护整个解释器,避免给每个对象加锁(那样开销太大)
OK,本篇先到这里,如有疑问,欢迎评论区留言讨论,祝各位功力大涨,技术更上一层楼!!!更多内容见下篇 blog
【Ubuntu】【Gitlab】拉出内网 Web 服务:http.server 单/多线程分析(七)