Apache arrow顶级项目调试

Apache arrow顶级项目调试

arrow官方从7.x版本开始提供了一个gdb工具,叫做gdb_arrow.py,可以在仓库里面下载下来。

调试原理可以阅读之前写的文章:

玩转C++调试之Python的GDB库增强

使用办法非常简单,直接:

go 复制代码
source /code/arrow/cpp/gdb_arrow.py

如果在gdb里面source没报错,那么恭喜你加载成功。

在随后的print arrow的内部结构时,便可以直接以可读的形式展示出来了。

当然,还可能非常不幸,会报错,各种语法错误,下面来简单说一下解决办法。

例如:

go 复制代码
File "/code/arrow/cpp/gdb_arrow.py", line 60
  f'from GDB\'s response:\n"""{s}"""')
  ^
SyntaxError: invalid syntax

gdb_arrow.py脚本只支持python3以上版本,如果是python2自然就出错了,例如:上面的语法错误。

在gdb里面可以检查一下自己的python脚本:

go 复制代码
(gdb) py
>import sys
>print(sys.version)
>end
3.8.15 (default, Mar  9 2023, 21:22:48) 
[GCC 10.2.1 20210130 (Red Hat 10.2.1-11)]

可以看到输出了python3,那么到这里可以验证python版本没问题,一般来说就是可以source成功的,我这边一开始这样查看出来的版本是python2,自然就source挂了,最后通过源码安装gdb方式,安装了一个比较新的版本就没问题了。

下面来看看使用脚本与不使用脚本调试的显示情况吧。

  • 默认调试
go 复制代码
(gdb) p *schema
$2 = (std::__shared_ptr_access<arrow::Schema, (__gnu_cxx::_Lock_policy)2, false, false>::element_type &) @0x5a2dd0: {<arrow::detail::Fingerprintable> = {
    _vptr.Fingerprintable = 0x7ffff786fe70 <vtable for arrow::Schema+16>, fingerprint_ = {_M_b = {_M_p = 0x0}}, metadata_fingerprint_ = {_M_b = {
        _M_p = 0x0}}}, <arrow::util::EqualityComparable<arrow::Schema>> = {<No data fields>}, <arrow::util::ToStringOstreamable<arrow::Schema>> = {<No data fields>}, impl_ = {
    _M_t = {<std::__uniq_ptr_impl<arrow::Schema::Impl, std::default_delete<arrow::Schema::Impl> >> = {
        _M_t = {<std::_Tuple_impl<0, arrow::Schema::Impl*, std::default_delete<arrow::Schema::Impl> >> = {<std::_Tuple_impl<1, std::default_delete<arrow::Schema::Impl> >> = {<std::_Head_base<1, std::default_delete<arrow::Schema::Impl>, true>> = {<std::default_delete<arrow::Schema::Impl>> = {<No data fields>}, <No data fields>}, <No data fields>}, <std::_Head_base<0, arrow::Schema::Impl*, false>> = {_M_head_impl = 0x5a2790}, <No data fields>}, <No data fields>}}, <No data fields>}}}
  • 脚本调试
go 复制代码
(gdb) p *schema
$3 = (std::__shared_ptr_access<arrow::Schema, (__gnu_cxx::_Lock_policy)2, false, false>::element_type &) @0x5a2dd0: arrow::Schema with 3 fields = {["fd0"] = arrow::int32(), 
  ["fd1"] = arrow::uint8(), ["fd2"] = arrow::int16()}

再试试batch

go 复制代码
(gdb) p *b1
$4 = (std::__shared_ptr_access<arrow::RecordBatch, (__gnu_cxx::_Lock_policy)2, false, false>::element_type &) @0x5a2a90: arrow::RecordBatch with 3 columns, 10 rows = {
  ["fd0"] = arrow::ArrayData of type arrow::int32(), length 10, offset 0, null count 0 = {440260352, 1427803791, 1601077171, -300415297, 1521318915, -1491074194, -1019370501, 
    -876914235, 791665453, -229504221}, ["fd1"] = arrow::ArrayData of type arrow::uint8(), length 10, offset 0, null count 0 = {0, 215, 61, 26, 143, 142, 26, 85, 179, 127}, 
  ["fd2"] = arrow::ArrayData of type arrow::int16(), length 10, offset 0, null count 0 = {-10496, 6717, -29041, 21786, 32691, 24430, 1727, -4584, 31747, 23213}}

可以看到的是非常的直观!

以后调试arrow又更加方便了。

相关推荐
小小龙学IT2 天前
Apache Airflow 2.x 深度指南:用 Python 编排一切的现代化工作流引擎
开发语言·python·apache
Shepherd06192 天前
【IT 运维】Apache 使用 mod_remoteip 恢复 Cloudflare 后的真实访客 IP
运维·tcp/ip·apache
isyangli_blog2 天前
SDN 基本应用实践 —— 使用命令行实现简易防火墙功能实验报告
服务器·php·apache
小小龙学IT3 天前
Apache Pulsar 深度解析:从架构设计到生产落地
apache
Full Stack Developme4 天前
Apache Tika 教程
java·开发语言·python·apache
laplaya4 天前
C++大型项目组件通信与依赖管理实践
c++·log4j·apache
万岳科技5 天前
教育培训小程序如何构建线上线下一体化教学体系
小程序·apache
yyuuuzz5 天前
云服务器软件部署的几个常见问题
运维·服务器·开发语言·网络·云计算·php·apache
分布式存储与RustFS5 天前
Apache Iceberg数据湖轻量化搭建:基于Rust开源存储方案
开源·apache·iceberg·rustfs·ai存储·ai memory·s3 table
睡不醒男孩0308236 天前
中启乘数 CLup 6.x Apache Doris 存算一体集群管理技术文档
apache·doris·clup