NV GPU FMA指令测试本文测试了NV GPU FMA指令的行为哪怕一个空的Kernel,也有ULDC指令,从Constant Memory加载Context(>700cycle)和等待指令加载的stall(>100cycle) 根据fma的峰值性能,smsp的一个active cycle跟fma pipe cycle的比为1:2 如果一个smsp的fma pipe要达到峰值性能的95%,根据以下不等式: (2*fma_inst) / ((fma_inst[eligible]+fma_inst[issued]) + 上面的开销[