pytorch+cpu版本对Intel Ultra 9 275HX性能的影响

最近在用Intel Ultra 9 275HX跑RL,发现其运行效率很慢,于是对其性能进行了测试。U9 275HX,是8P+16E,24线程。测试过程中发现,只用8P而限制E核的使用,性能会有所提升。且pytorch的版本好对于8P的加载,起着关键的作用。

仅用 8 个 P 核执行 PyTorch 计算,禁用 E 核参与,代码如下

import os

必须在import torch之前设置,否则不生效

os.environ["OMP_NUM_THREADS"] = "8" # 严格等于P核数量

os.environ["MKL_NUM_THREADS"] = "8" # MKL线程数也设置为8,避免过度线程化

优化线程亲和性,绑定连续P核,避免跨核/跨NUMA调度

os.environ["KMP_AFFINITY"] = "granularity=fine,compact,1,0"

os.environ["KMP_BLOCKTIME"] = "1" # 减少OpenMP线程休眠,提升响应速度

import torch

1.pytorch2.4.1+cpu

运行时发现,它启用的是2P+6E全开

2.pytorch2.9.0+cpu

正常启用的是8P全开

这也告诉我们,在安装包时,也要考虑对cpu或者gpu架构的支持。如5060TI仅支持cuda12.8+.

相关推荐
Zldaisy3d几秒前
上交大特材所 l 增材制造多层级功能结构综述
人工智能
测试员周周1 分钟前
【AI测试系统】第1篇:LangGraph 实战:用 State Graph 搭建 AI测试流水线(4 步编排 + RAG 增强 + 完整代码)
linux·windows·python·功能测试·microsoft·单元测试·多轮对话
缝艺智研社3 分钟前
誉财 YC - 16 POLO 衫智能自动钉扣机:POLO 衫钉扣新变革
人工智能·新人首发·自动化缝纫机·线上模板机·无人自动化产线
带电的小王5 分钟前
【动手学深度学习】8.4. 循环神经网络
人工智能·pytorch·rnn·深度学习
yigan_Eins5 分钟前
Transformer|残差连接的技术演进:从CNN到ResNet
人工智能·深度学习·cnn·transformer
噜噜噜阿鲁~6 分钟前
python学习笔记 | 8.2、函数式编程-返回函数
笔记·python·学习
道可云7 分钟前
道可云人工智能&OPC每日资讯|《广东省加快推进人工智能全域全时全行业高水平应用行动方案》发布
人工智能
0xR3lativ1ty9 分钟前
每周AI新工具速览:Kiln与OpenRA-RL登场
人工智能·ai
精益数智工坊10 分钟前
拆解制造业仓库物料管理流程:如何通过标准化仓库物料管理流程解决账实不符难题
大数据·前端·数据库·人工智能·精益工程
大龄程序员狗哥17 分钟前
第46篇:语音识别入门——让AI“听懂”人类语言(概念入门)
人工智能·语音识别