pprof火焰图性能优化

pprof火焰图性能优化

火焰图(flame graph)是性能分析的利器,在go1.1之前的版本我们需要借助go-torch生成,在go1.1后go tool pprof集成了此功能,今天就来说说如何使用其进行性能优化

  1. 在你启动http server的地方直接加入导入: _ "net/http/pprof"

  2. 获取cpuprofile

    获取最近10秒程序运行的cpuprofile,-seconds参数不填默认为30。

bash 复制代码
go tool pprof http://127.0.0.1:8080/debug/pprof/profile -seconds 10

等10s后会生成一个: pprof.samples.cpu.001.pb.gz文件

  1. 生成火焰图
bash 复制代码
go tool pprof -http=:8081 ~/pprof/pprof.samples.cpu.001.pb.gz

其中-http=:8081会启动一个http服务

图中,从上往下是方法的调用栈,长度代表cpu时长。

其他

如果是内存信息SAMPLE这一栏有四个选项
alloc_objects:已分配的对象总量(不管是否已释放)
alloc_space:已分配的内存总量(不管是否已释放)
inuse_objects: 已分配但尚未释放的对象数量
inuse_sapce:已分配但尚未释放的内存数量

理解指标

flat flat%

一个函数内的directly操作的物理耗时。例如

go 复制代码
 func foo(){
     a()                                        // step1
     largeArray := [math.MaxInt64]int64{}       // step2
     for i := 0; i < math.MaxInt64; i++ {       // step3
             c()                                    // step4
     }
 }

flat只会记录step2和step3的时间;flat%即是flat/总运行时间。内存等参数同理。

所有的flat相加即是总采样时间,所有的flat%相加应该等于100%。

flat一般是我们最关注的。其代表一个函数可能非常耗时,或者调用了非常多次,或者两者兼而有之,从而导致这个函数消耗了最多的时间。

如果是我们自己编写的代码,则很可能有一些无脑for循环、复杂的计算、字符串操作、频繁申请内存等等。

如果是第三方库的代码,则很可能我们过于频繁地调用了这些第三方库,或者以不正确的方式使用了这些第三方库。

cum cum%

相比flat,cum则是这个函数内所有操作的物理耗时,比如包括了上述的step1、2、3、4。

cum%即是cum的时间/总运行时间。内存等参数同理。

一般cum是我们次关注的,且需要结合flat来看。flat可以让我们知道哪个函数耗时多,而cum可以帮助我们找到是哪些函数调用了这些耗时的(flat值大的)函数。

sum%

其上所有行的flat%的累加。可以视为,这一行及其以上行,其所有的directly操作一共占了多少物理时间。

理解连线图

每个节点的信息包括了包名、函数名、flat、flat%、cum、cum%

节点的颜色越红,其cum和cum%越大。其颜色越灰白,则cum和cum%越小。

节点越大,其flat和flat%越大;其越小,则flat和flat%越小

线条代表了函数的调用链,线条越粗,代表指向的函数消耗了越多的资源。反之亦然。

线条的样式代表了调用关系。实线代表直接调用;虚线代表中间少了几个节点;带有inline字段表示该函数被内联进了调用方(不用在意,可以理解成实线)。

对于一些代码行比较少的函数,编译器倾向于将它们在编译期展开从而消除函数调用,这种行为就是内联。

理解火焰图

火焰图的横向长度表示cum,相比下面超出的一截代表flat。

内存分析

MemStats

有时候,pprof显示的内存占用比操作系统看到的少,其中,内存的 gap 主要来源于:

  • heap 上 Idle span,分配了但是未使用的(往往出现这种情况是一波波的请求峰值导致的,冲上去就一时半会不下来);
  • 栈的内存占用;
  • OS 分配但是是 reserved 的;
  • runtime 的 Gc 元数据,mcache,mspan 等管理内存;
TOP

使用linux的top命令,其中关于程序使用内存的项介绍:

%MEM:Memory usage (RES) 内存占用 使用的物理内存

VIRT:Virtual Image (kb) 虚拟镜像 总虚拟内存的使用数量

SWAP:Swapped size (kb) 非驻留但是存在于程序中的内存,虚拟内存减去物理内存

RES:Resident size (kb) 非swap的物理内存

SHR:Shared Mem size (kb) 程序使用的共享内存,可以被其它进程所共享


相关推荐
隔窗听雨眠12 分钟前
C语言函数递归从入门到精通(下):性能优化与工程实践
c语言·算法·性能优化
止语Lab1 小时前
Go 代码生成的三层认知:从忍住不用到自己造轮子
go
昇腾CANN2 小时前
【cann-samples系列】GroupedMatmul MX量化矩阵乘的深度性能优化实践
线性代数·性能优化·矩阵·昇腾·cann
霸道流氓气质2 小时前
Spring Boot 微服务性能优化完全指南
spring boot·微服务·性能优化
协享科技2 小时前
AI 视频理解:让 Agent 看视频并总结内容
人工智能·go·音视频·agent·ai编程
步步为营DotNet3 小时前
Blazor 与 Microsoft.Extensions.AI 在客户端性能优化中的协同应用
人工智能·microsoft·性能优化
不能只会打代码13 小时前
边缘视频分析平台的架构设计与性能优化——从750ms到190ms的调优之路
java·spring boot·redis·性能优化·边缘计算·物联网竞赛
山东点狮信息科技有限公司15 小时前
企业级 MES 制造执行系统架构设计与实践
spring cloud·性能优化·系统架构·策略模式·点狮
龙智DevSecOps解决方案1 天前
3A 游戏优化技术栈:如何打通引擎级分析工具与 DevOps 持续集成管线?
unity·性能优化·游戏开发·技术美术·perforce·unrealengine
大熊猫侯佩1 天前
WWDC26:SwiftUI 8 的 @State 全新“懒加载”机制与最佳实践
性能优化·swiftui·observable·懒加载·state·swift宏·实例初始化