pytorch+cpu版本对Intel Ultra 9 275HX性能的影响

最近在用Intel Ultra 9 275HX跑RL,发现其运行效率很慢,于是对其性能进行了测试。U9 275HX,是8P+16E,24线程。测试过程中发现,只用8P而限制E核的使用,性能会有所提升。且pytorch的版本好对于8P的加载,起着关键的作用。

仅用 8 个 P 核执行 PyTorch 计算,禁用 E 核参与,代码如下

import os

必须在import torch之前设置,否则不生效

os.environ["OMP_NUM_THREADS"] = "8" # 严格等于P核数量

os.environ["MKL_NUM_THREADS"] = "8" # MKL线程数也设置为8,避免过度线程化

优化线程亲和性,绑定连续P核,避免跨核/跨NUMA调度

os.environ["KMP_AFFINITY"] = "granularity=fine,compact,1,0"

os.environ["KMP_BLOCKTIME"] = "1" # 减少OpenMP线程休眠,提升响应速度

import torch

1.pytorch2.4.1+cpu

运行时发现,它启用的是2P+6E全开

2.pytorch2.9.0+cpu

正常启用的是8P全开

这也告诉我们,在安装包时,也要考虑对cpu或者gpu架构的支持。如5060TI仅支持cuda12.8+.

相关推荐
科技峰行者1 天前
闪存创新赋能全域,闪迪构建AI存储全栈版图
人工智能·ai·存储·闪存·闪迪
前端技术1 天前
ArkTS第三章:声明式UI开发实战
java·前端·人工智能·python·华为·鸿蒙
landuochong2001 天前
用 Claude Code 直接写 Obsidian 笔记-增强版
人工智能·笔记·skill·claudecode
Elastic 中国社区官方博客1 天前
Elasticsearch:运用 JINA 来实现多模态搜索的 RAG
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
永霖光电_UVLED1 天前
氧化镓高体积热容的特性,集成高介电常数界面的结侧冷却架构
人工智能·生成对抗网络·架构·汽车·制造
lishutong10061 天前
基于 Perfetto 与 AI 的 Android 性能自动化诊断方案
android·人工智能·自动化
疯狂成瘾者1 天前
.pyc格式文件
python
鬼圣1 天前
Python 生成器与迭代器详解
python
code_pgf1 天前
Transformer 原理讲解及可视化算子操作
人工智能·深度学习·transformer