OpenMP 中 static 和 dynamic schedule 方式的区别

最近有在做一些跟多线程相关的事情，不可避免的就会接触到 OpenMP ，但是各种文章对其中的调度器并没有过多的研究。因此在收集各方资料之后，我终于弄明白了动态调度和静态调度的区别，在这里跟大家分享一下。

基本解释

领域展开！上代码！

算法的主要原理是两层循环
- 第一层循环通过线程id，将不同的 chunk 按照余数分配给不同的线程
- 第二层才是chunk本身内部的循环，执行 loop body
因此在编译器时期就能确定什么线程执行哪些循环了，没有太大的 overhead

基本的原理依然是首先分成好几个 chunk，区别在于这次并不是直接分，而是先分给每个线程一个，做完了再来拿领域展开！上代码！
依然是两层循环，本质上没有区别，只是将使用步长计算出来的 chunk 变成了动态获取的 chunk，依赖于 ort_get_dynaic_chunk 函数，内层还是执行 for 循环的循环体。
可以继续看一下 ort_get_dynamic_chunk 的代码实现
动态调度依赖于一个数据结构记录当前迭代空间执行到哪里了，下方的变量 t 呆滞数据结构 gdopt_t
- data 保存当前第几个迭代还未分配
- lock 是一个锁，所有线程如果要获取新的迭代来执行就要先获取锁
  - （还不确定是一个什么 lock，书里面说是 mutex lock，但是就改一点点数据感觉肯定是 spin lock 把。。。。）
在实现上可以看出，每次就是先获取 lock，再更新一下 data 指向的循环偏移量。因此，动态调度的overhead 在于每次获取新的 chunk 的时候都会有锁争用，因此如果chunksize 比较小或者线程数比较多可能就会影响性能
结果上的区别：
- 静态的 scheduler 会在编译时期将 workload 分给不同的线程
- 动态的 scheduler 会在程序执行时期将 workload 分给不同的线程

而对于两种 schedule 方式，总结如下：

	static	dynamic
分解代价	几乎无 overhead，依赖简单的加法运算得到	一个自旋锁，会有锁争抢的问题
计算量均衡	会因为循环体计算量的不同或者计算能力的差异而出现木桶效应，一些早做完的线程在等待没有做完的线程	提早执行完的线程可以去获取其他的任务，因此计算量均衡方面处理的很好
cache 冲突	依赖于 chunksize	同样依赖于 chunksize

一些学习资料：