Apache Arrow的零拷贝是指什么

背景

最近在看一些native相关的东西(主要是Spark Datafusion Comet Jvm与Rust JNI的Shuffle数据交互),遇到了Arrow零拷贝相关的问题,再次记录一下,Arrow在Spark中应用也是存在的,见Spark中python和jvm的通信杂谈--ArrowConverter

Apache Arrow的零拷贝技术是指通过传递在同一个指向列式内存缓冲区的指针,在不同的系统之间(比如Python,R,Spark,数据库)之间共享数据,从而避免了

代价高昂的数据复制,序列化和反序列化,以获取性能提升,尤其是对于做数据 pipelie以及数据分析的场景,得益于Arrow标准的内存格式以及C Data接口,

通过把数据保存在连续的共享的内存中,显著的减少了内存压力。

工作原理

  • 共享内存:Arrow定义了标准的列式布局,允许不同的Runtime(如 Python, Java,C++)无需重塑,就可以解释编译相同的字节码。
  • C Data接口:该接口允许一个进程或者库将指向Arrow数据缓存区的指针传递另一个进程或者库,从而实现直接内存访问
  • 零拷贝:无需拷贝大量的数据,系统只需要共享在RAM中存在的数据,减少了内存和CPU的额外开销

什么情况下利用了零拷贝(何时不能实现)

  • 利用了:使用Arrow原生格式,或者使用MemoryMappedFile进行进程间通信(IPC),或者使用与Arrow集成的引擎(如DuckDB)
  • 未利用:转换为可写的NumPy数组(会导致强制复制),处理复杂的嵌套数据,或者在传输中需要进行压缩转换的数据

主要优势

  • 低延迟高吞吐:数据处理更快,因为不需要不断的复制和序列化。
  • 减少内存使用:更少的临时对象数据的使用,减少了内存压力
  • 更简洁的架构:Arrow可以作为跨工具的通用数据语言
相关推荐
极光代码工作室13 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai2025100913 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
ACP广源盛1392462567313 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
木心术113 天前
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势
大数据·人工智能·spark
ACP广源盛1392462567314 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby14 天前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛1392462567315 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽15 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo15 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛1392462567315 天前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark