最近在一个项目在客户生产环境版本升级后,出现了预期之外的错误,由于客户升级的版本不是最新版本,是一个稍早一点的版本,时间已经是两年以前的了,对应的源码也很难找到和确认。另外,客户升级以前的版本对应功能也是正常的。
1. 在测试环境部署客户升级版本环境
为了查找问题原因,使用客户的升级版本,部署了环境。
2. 根据业务逻辑查找关键代码类和方法
虽然具体的版本不清楚,但是总体的业务处理流程应该是一致的,根据最新的代码和业务逻辑处理,找到关键的类和方法:
com.xx.yyy.business.handler.BaseHandlerImpl
getPwdSplit
3. 运行arthas,挂载到对应的java进程
这里需要注意的是,如果java进程不是root启动的,arthas需要和目标java进程使用相同的用户名启动,才能挂载成功。
4. 运行watch命令,观察入参和返回值
在arthas挂载成功的情况下,执行下面的命令:
[arthas@58938]$ watch com.xx.yyy.business.handler.BaseHandlerImpl getPwdSplit -b -s -x 2
Press Q or Ctrl+C to abort.
Affect(class count: 13 , method count: 1) cost in 218 ms, listenerId: 3
method=com.xx.yyy.business.handler.BaseHandlerImpl.getPwdSplit location=AtEnter
ts=2024-03-10 11:41:53; [cost=0.032532ms] result=@ArrayList[
@Object[][
@ThirdAuthInfo[com.xx.yyy.business.entity.thirdauth.ThirdAuthInfo@29d4b0c],
@String[1234test1234],
@UserInfo[com.xx.yyy.business.entity.user.UserInfo@27bda07c],
@ArrayList[isEmpty=true;size=0],
],
@AuthService[
log=@Logger[org.apache.log4j.Logger@e057bf3],
enabled_jdbc=@Integer[0],
log=@Logger[org.apache.log4j.Logger@3785f01],
tokenFunc=null,
log=@Logger[org.apache.log4j.Logger@69870874],
raAttrType=@Integer[18],
attrType=@Integer[12],
retryCntType=@Integer[14],
userServ=@UserServImpl[com.xx.yyy.business.service.user.impl.UserServImpl@23f3fb78],
tokenServ=@TokenServImpl[com.xx.yyy.business.service.token.impl.TokenServImpl@68cd616],
tokenExtServ=@TokenExtServImpl[com.xx.yyy.business.service.tokenext.impl.TokenExtServImpl@47cd0191],
confServ=@ConfServImpl[com.xx.yyy.business.service.conf.impl.ConfServImpl@165875b4],
agentServ=@AgentServImpl[com.xx.yyy.business.service.agent.impl.AgentServImpl@2a4c743c],
userTokenServ=@UserTokenServImpl[com.xx.yyy.business.service.user_token.impl.UserTokenServImpl@4a103b05],
pushSerServ=@PushSerServImpl[com.xx.yyy.business.service.pushserinfo.impl.PushSerServImpl@657e6a5f],
assertionServ=@AssertionServImpl[com.xx.yyy.business.service.assertion.impl.AssertionServImpl@30de4691],
enabled_jdbc=@Integer[0],
],
null,
]
method=com.xx.yyy.business.handler.BaseHandlerImpl.getPwdSplit location=AtExit
ts=2024-03-10 11:41:53; [cost=2.378382086781499E9ms] result=@ArrayList[
@Object[][
@ThirdAuthInfo[com.xx.yyy.business.entity.thirdauth.ThirdAuthInfo@29d4b0c],
@String[1234test1234],
@UserInfo[com.xx.yyy.business.entity.user.UserInfo@27bda07c],
@ArrayList[isEmpty=true;size=0],
],
@AuthService[
log=@Logger[org.apache.log4j.Logger@e057bf3],
enabled_jdbc=@Integer[0],
log=@Logger[org.apache.log4j.Logger@3785f01],
tokenFunc=null,
log=@Logger[org.apache.log4j.Logger@69870874],
raAttrType=@Integer[18],
attrType=@Integer[12],
retryCntType=@Integer[14],
userServ=@UserServImpl[com.xx.yyy.business.service.user.impl.UserServImpl@23f3fb78],
tokenServ=@TokenServImpl[com.xx.yyy.business.service.token.impl.TokenServImpl@68cd616],
tokenExtServ=@TokenExtServImpl[com.xx.yyy.business.service.tokenext.impl.TokenExtServImpl@47cd0191],
confServ=@ConfServImpl[com.xx.yyy.business.service.conf.impl.ConfServImpl@165875b4],
agentServ=@AgentServImpl[com.xx.yyy.business.service.agent.impl.AgentServImpl@2a4c743c],
userTokenServ=@UserTokenServImpl[com.xx.yyy.business.service.user_token.impl.UserTokenServImpl@4a103b05],
pushSerServ=@PushSerServImpl[com.xx.yyy.business.service.pushserinfo.impl.PushSerServImpl@657e6a5f],
assertionServ=@AssertionServImpl[com.xx.yyy.business.service.assertion.impl.AssertionServImpl@30de4691],
enabled_jdbc=@Integer[0],
],
@String[][
@String[1234test],
@String[1234],
@String[],
],
]
可以看出,当该方法被调用时,函数的入参和返回值都输出来了。这样对于确认这段代码的业务处理逻辑是否有错误就容易确认了。实际上这段业务的处理就是有问题的,返回值和预期的返回值不一样。
5. 反编译代码与正确的最新版本进行对比
通过jad命令,将对应方法的代码反编译出来,和最新版本的正确代码进行对比,因为总体逻辑基本上不会有大的变动,通过对比,很容易找出差异来。
[arthas@58938]$ jad com.xx.yyy.business.handler.BaseHandlerImpl getPwdSplit
通过代码对比,错误版本中,增加了一个多余的URL解码调用,导致%这样的字符当做转义字符处理了,而实际上,这里是不需要的。
6. watch命令参考
watch 的参数比较多,主要是因为它能在 4 个不同的场景观察对象
参数名称 | 参数说明 |
---|---|
class-pattern | 类名表达式匹配 |
method-pattern | 函数名表达式匹配 |
express | 观察表达式,默认值:{params, target, returnObj} |
condition-express | 条件表达式 |
[b] | 在函数调用之前观察 |
[e] | 在函数异常之后观察 |
[s] | 在函数返回之后观察 |
[f] | 在函数结束之后(正常返回和异常返回)观察 |
[E] | 开启正则表达式匹配,默认为通配符匹配 |
[x:] | 指定输出结果的属性遍历深度,默认为 1,最大值是 4 |
[m <arg>] |
指定 Class 最大匹配数量,默认值为 50。长格式为[maxMatch <arg>] 。 |
这里重点要说明的是观察表达式,观察表达式的构成主要由 ognl 表达式组成,所以你可以这样写"{params,returnObj}"
,只要是一个合法的 ognl 表达式,都能被正常支持。
特别说明:
- watch 命令定义了 4 个观察事件点,即
-b
函数调用前,-e
函数异常后,-s
函数返回后,-f
函数结束后 - 4 个观察事件点
-b
、-e
、-s
默认关闭,-f
默认打开,当指定观察点被打开后,在相应事件点会对观察表达式进行求值并输出 - 这里要注意
函数入参
和函数出参
的区别,有可能在中间被修改导致前后不一致,除了-b
事件点params
代表函数入参外,其余事件都代表函数出参 - 当使用
-b
时,由于观察事件点是在函数调用前,此时返回值或异常均不存在 - 在 watch 命令的结果里,会打印出
location
信息。location
有三种可能值:AtEnter
,AtExit
,AtExceptionExit
。对应函数入口,函数正常 return,函数抛出异常。
更多内容还可以参考: