最近在用Intel Ultra 9 275HX跑RL,发现其运行效率很慢,于是对其性能进行了测试。U9 275HX,是8P+16E,24线程。测试过程中发现,只用8P而限制E核的使用,性能会有所提升。且pytorch的版本好对于8P的加载,起着关键的作用。

仅用 8 个 P 核执行 PyTorch 计算,禁用 E 核参与,代码如下
import os
必须在import torch之前设置,否则不生效
os.environ["OMP_NUM_THREADS"] = "8" # 严格等于P核数量
os.environ["MKL_NUM_THREADS"] = "8" # MKL线程数也设置为8,避免过度线程化
优化线程亲和性,绑定连续P核,避免跨核/跨NUMA调度
os.environ["KMP_AFFINITY"] = "granularity=fine,compact,1,0"
os.environ["KMP_BLOCKTIME"] = "1" # 减少OpenMP线程休眠,提升响应速度
import torch
1.pytorch2.4.1+cpu
运行时发现,它启用的是2P+6E全开

2.pytorch2.9.0+cpu
正常启用的是8P全开

这也告诉我们,在安装包时,也要考虑对cpu或者gpu架构的支持。如5060TI仅支持cuda12.8+.