矩阵计算性能优化-初探

背景

矩阵计算无论是在高性能计算还是深度学习中,都是比较常用的操作,常规的矩阵相乘包括大量的浮点数计算或者乘加运算,是典型的计算密集型算子。矩阵运算的性能直接展示了程序员设计的矩阵算法对CPU的利用能力。

FLOPS和FLOPs

  • FLOPS 意指每秒浮点运算次数。用来衡量硬件的性能
  • FLOPs 是浮点运算次数,可以用来衡量算法/模型复杂度

在性能优化的过程中,我们首先需要获取当前硬件的FLOPS,再通过FLOPs / cost_time 获取当前算法每秒的浮点运算次数,通过比较两者之间的差距,衡量自己对CPU的利用能力。

那么,同样是计算,为什么利用能力会有差距呢? 现代计算机系统使用多级缓存来减少处理器与主存之间的数据传输延迟。矩阵计算算法设计主要考虑如何使用更好的数据访问模式以减少cache miss。 在硬件水平相同,不考虑并行处理与分布式计算带来的通信开销的情况下,降低cache miss,可以显著提高性能。

矩阵计算常规实现

以下是一个矩阵计算的常规实现

C++ 复制代码
void naive_gemm(const float* A, const float* B, float* C, const int M, const int N, const int K) { 
    for (int m = 0; m < M; ++m) {  // 循环1
        for (int n = 0; n < N; ++n) {  // 循环2
            for (int k = 0; k < K; ++k) {  // 循环3
                C[m * N + n] += A[m * K + k] * B[k * N + n];
            }
        } 
    } 
}

为了方便后面讲述,这里为每个循环添加了标记

我们可以看到,每次循环都会获取不同列的值,在矩阵本身按行存储的同时,相当于每次获取同一列的不同数据时,都要读取。这会大大增加cache miss的频率。

矩阵计算优化1

C++ 复制代码
void naive_gemm(const float* A, const float* B, float* C, const int M, const int N, const int K) { 
    for (int m = 0; m < M; ++m) {  // 循环1
        for (int k = 0; k < K; ++k) {  // 循环3
            for (int n = 0; n < N; ++n) {  // 循环2
                C[m * N + n] += A[m * K + k] * B[k * N + n];
            }
        } 
    } 
}

通过对循环进行重排我们发现,

每次循环从获取B的每列不同值变成了每行不同值,这就让我们可以通过一次读取矩阵一行的数据写入cache这个行为可以获得收益,而不是每次循环都会造成cache miss。通过这种方式可以大大增加矩阵计算的性能。

相关推荐
程序边界1 小时前
MongoDB迁移到KES实战全纪录(下):性能优化与实践总结
数据库·mongodb·性能优化
武子康1 小时前
Java-160 MongoDB副本集部署实战 单机三实例/多机同法 10 分钟起集群 + 选举/读写/回滚全流程
java·数据库·sql·mongodb·性能优化·系统架构·nosql
GISer_Jing4 小时前
不定高虚拟列表性能优化全解析
前端·javascript·性能优化
你听得到114 小时前
卷不动了?我写了一个 Flutter 全链路监控 SDK,从卡顿、崩溃到性能,一次性搞定!
前端·flutter·性能优化
l1t5 小时前
利用DeepSeek改写递归CTE SQL语句为Python程序及优化
数据库·人工智能·python·sql·算法·性能优化·deepseek
白帽子黑客罗哥15 小时前
Redis实战深度剖析:高并发场景下的架构设计与性能优化
redis·网络安全·性能优化·高并发·分布式锁·秒杀系统·缓存架构
lbai713417 小时前
Perf-Ninja听课笔记 - 环境配置及Warmup
笔记·性能优化
武子康2 天前
Java-159 MongoDB 副本集容器化 10 分钟速查卡|keyfile + –auth + 幂等 init 附 docker-compose
java·数据库·mongodb·docker·性能优化·nosql·1024程序员节
九皇叔叔2 天前
Java循环结构全解析:从基础用法到性能优化
java·开发语言·性能优化
UWA2 天前
有什么指标可以判断手机是否降频
人工智能·智能手机·性能优化·memory·游戏开发