pytorch+cpu版本对Intel Ultra 9 275HX性能的影响

最近在用Intel Ultra 9 275HX跑RL,发现其运行效率很慢,于是对其性能进行了测试。U9 275HX,是8P+16E,24线程。测试过程中发现,只用8P而限制E核的使用,性能会有所提升。且pytorch的版本好对于8P的加载,起着关键的作用。

仅用 8 个 P 核执行 PyTorch 计算,禁用 E 核参与,代码如下

import os

必须在import torch之前设置,否则不生效

os.environ["OMP_NUM_THREADS"] = "8" # 严格等于P核数量

os.environ["MKL_NUM_THREADS"] = "8" # MKL线程数也设置为8,避免过度线程化

优化线程亲和性,绑定连续P核,避免跨核/跨NUMA调度

os.environ["KMP_AFFINITY"] = "granularity=fine,compact,1,0"

os.environ["KMP_BLOCKTIME"] = "1" # 减少OpenMP线程休眠,提升响应速度

import torch

1.pytorch2.4.1+cpu

运行时发现,它启用的是2P+6E全开

2.pytorch2.9.0+cpu

正常启用的是8P全开

这也告诉我们,在安装包时,也要考虑对cpu或者gpu架构的支持。如5060TI仅支持cuda12.8+.

相关推荐
阿里云大数据AI技术2 小时前
阿里云荣获 2025–2026 年度 Elastic中国最佳合作伙伴奖
人工智能·elasticsearch
yrwang_xd2 小时前
人工智能基础-常用Nvidia Tesla及RTX显卡算力大全-2026版
人工智能
java资料站2 小时前
python爬虫入门
python
用户4815930195912 小时前
MCP 终极指南(进阶篇):手写一个 MCP Server,再用抓包拆解协议底层
人工智能
用户4815930195912 小时前
我抓包了 Cline 与模型的通信,发现了一件有趣的事
人工智能
1941s2 小时前
Google Agent Development Kit (ADK) 指南 第二章:环境搭建与快速开始
人工智能·python·adk·google agent
抓个马尾女孩2 小时前
位置编码:绝对位置编码、相对位置编码、旋转位置编码
人工智能·深度学习·算法·transformer
天下无贼2 小时前
【Python】2026版——FastAPI 框架快速搭建后端服务
后端·python·aigc
小蚂蚁i2 小时前
LangChain 完全学习手册:看完就能上手
后端·python·ai编程