记一次crash问题分析

概要

本文介绍近期工作中遇到的一次crash,问题分析花费了不少时间,最终得以解决。

代码

cpp 复制代码
void notify_eskf_result_status() {
    // 播放vision jsondata
    if (vision_vector_size_ > 0) {
        // 和问题无关的代码
            char* new_pbdata = new char[vision_jsondata_vector_[vision_idx_].second.size()+1]; // 申请内存空间
            // 对new_pbdata进行赋值
            wrapper_->update_vision_jsondata(new_pbdata, 
                    local_time,
                    [&] {delete[] new_pbdata;}, // 传入lambda表达式,以便在定一个线程释放申请的内存空间
                    false); 
            ++vision_idx_;
     }
}

问题代码行

问题是由这一行lambda表达式带来的

[&] {delete[] new_pbdata;},

问题原因

当时写代码时使用的引用捕获,所期望的是能延长new_pbdata对象的生存空间,让它在notify_eskf_result_status函数执行完成后也能存活,这样当另一个线程调用lambda表达式后仍然能访问到它,以便调用delete方法释放之前的内存。

显然我对lambda表达式的理解出现的巨大的偏差,这里的引用捕获并没有什么magic的功能,仅仅就是通常意义上的引用而已。当引用的原对象在函数结束前析构时,lambda表达式中保留的new_pbdata已经没有了生存的依据。可以推测,当程序继续执行,原先new_pbdata所在栈上的位置可以被另外其它变量所替代,这样当执行lambda表达式时,其值已经发生了改变(导致程序的崩溃)。

修改

std::bind 用来将可调用对象与其参数一起进行绑定,因此可以把问题lambda表达式改成

std::bind([](char* pbdata) { delete[] pbdata;}, new_pbdata)

把new_pbdata作为形参传入lambda表达式作为第一个参数,并使用bind在此刻进行绑定,这样后续在调用到该function时pbdata的值将和赋值时的new_pbdata相等,代码逻辑执行正确。

感想

这个case我排查了几天,最开始是寄希望通过阅读代码能发现问题,但由于认知的错误一直发现不了。然后我采取了以下措施解决问题:首先将只能在mac上的代码适配到linux上(本人对于linux的熟悉程度远大于mac),然后开发单元测试代码以便能复现问题,接着就是使用gdb和valgrind这两大杀器进行复现。即使后来问题复现,调试仍然花费了一些时间,一是代码执行在不同的线程里,二是之前的认知错误根深蒂固了,但当时我的想法就是多去尝试(打印日志),看看能不能发现一些明显的错误。

今年也解了很多crash问题,有些是别人解不了了交给我,我的一个感受就是需要耐心的去分析,人一旦着急了心态就崩了,这时根本不可能解决的了。二是还是需要一些辅助的工具和手段,有些问题隐藏得比较深,仅仅code review是不够了,即使需要花费额外的精力去做。

相关推荐
南东山人4 小时前
一文说清:C和C++混合编程
c语言·c++
Ysjt | 深7 小时前
C++多线程编程入门教程(优质版)
java·开发语言·jvm·c++
ephemerals__7 小时前
【c++丨STL】list模拟实现(附源码)
开发语言·c++·list
Microsoft Word7 小时前
c++基础语法
开发语言·c++·算法
一只小小汤圆7 小时前
opencascade源码学习之BRepOffsetAPI包 -BRepOffsetAPI_DraftAngle
c++·学习·opencascade
legend_jz8 小时前
【Linux】线程控制
linux·服务器·开发语言·c++·笔记·学习·学习方法
嘿BRE8 小时前
【C++】几个基本容器的模拟实现(string,vector,list,stack,queue,priority_queue)
c++
ö Constancy9 小时前
c++ 笔记
开发语言·c++
fengbizhe9 小时前
笔试-笔记2
c++·笔记