面向通用矩阵乘法(GEMM)负载的GPU建模方法:原理、实现与多场景应用价值通用矩阵乘法(GEMM)是深度学习训练与推理、科学计算和高性能计算中最为核心的计算操作之一。尤其在Transformer等大模型中,GEMM计算可占总耗时的75%以上,成为系统性能的关键瓶颈。如何精准预测GPU执行GEMM算子的性能,不仅是学术界的研究热点,更对工业界的任务调度、硬件优化与资源管理具有重大意义。 这是一种面向GEMM负载的GPU建模方法,通过多级协同建模机制,将缓存行为、指令开销与计算强度深度耦合,实现GPU执行GEMM算子的精准性能预测,可广泛应用于AI训练、科学计算等GPU密集型场景的