Ruby JSON 性能优化之旅:深入挖掘与持续改进

在优化 Ruby 的 JSON 处理性能的征程中,我们不断面临挑战,也持续收获着成果。在上一篇文章中,我们认识到若 ruby/json 在微基准测试中缺乏竞争力,公众对其的看法就难以改变。而致使 ruby/json 在微基准测试中表现欠佳的主要因素是其设置成本过高,因此我们致力于探寻进一步削减该成本的方法。

一、性能差异探寻:微观视角下的深度剖析

(一)问题的提出:编码性能的差距

为了深入研究性能差异,我决定将此性能差异当作一个漏洞来处理,并着手进行调查。通过对 Stephen 的微基准测试(使用 ruby/jsonoj 进行)进行性能分析,我们可以清晰地看到在处理 "small mixed" 数据(如 [1, "string", { a: 1, b: 2 }, [3, 4, 5]])时的情况。

(二)对比测试的结果与意外发现

最初,我们曾以为额外的内存分配是主要问题,并且认为重用 JSON::State 对象能够使 ruby/json 的性能与 oj 相媲美。然而,实际测试结果却给了我们一个意外:即便重用了 JSON::State 对象,ruby/json 的速度仍比 oj 慢约 20%。这一结果促使我们必须深入探究,在着手消除 State 分配之前,先找到导致这一差距的根源。

(三)深入剖析:代码性能分析

于是,我们对 ruby/jsonoj 进行了详细的性能分析,通过对比两者的调用栈信息来寻找差异。在 ruby/json 的分析中,我们发现即使重用了 JSON::State 对象,仍在内部缓冲区的分配和释放上耗费了大量时间,而在 oj 的分析中,却未发现任何 mallocfree 调用。这表明 oj 可能通过重用持久缓冲区或在栈上分配缓冲区来避免这些开销。

二、栈分配优化:提升性能的关键一步

(一)栈与堆的基本概念解释

在深入探讨优化策略之前,有必要先简单介绍一下栈和堆这两个内存区域。对于不熟悉 C 语言的读者来说,栈是为每个原生线程预先分配的内存区域,用于存储函数调用时的局部变量等状态信息。栈分配速度极快,且存储在其中的数据通常位于 CPU 缓存中,因为它是一个非常 "热" 的内存区域。然而,栈的空间有限,并且在函数返回时,其分配的内存会被自动释放,这使得它在某些情况下并不适用。

与之相反,堆是系统中大部分可用的随机存取存储器(RAM)。当需要存储数据时,我们可以通过调用 malloc(number_of_bytes) 来分配内存,并在使用完毕后调用 free(pointer) 释放。尽管存在各种不同的内存分配器(如 jemalloctcmalloc)来管理堆内存,但 mallocfree 操作仍存在一定的开销。此外,如果在使用过程中需要调整已分配内存的大小,还可能需要调用 realloc,这会涉及到数据的复制和旧内存块的释放,成本相对较高。

(二)JSON::State#generate 中的优化机会

ruby/json 的实现中,JSON::State#generate 方法在处理过程中进行了两次 malloc + free 调用,其中第一次在 cState_prepare_buffer 中用于分配 FBuffer 结构体,该结构体包含缓冲区的元数据,如容量等信息,其大小仅为 32 字节。由于结构体较小,我们考虑将其在栈上进行分配,这样可以避免一对 malloc + free 调用,同时对栈空间的增加也微不足道。

(三)优化的实现与效果评估

经过一系列的代码修改,将 FBuffer 结构体在栈上分配后,我们在微基准测试中看到了显著的性能提升:编码速度从约 263 万次 / 秒提升到了约 283 万次 / 秒,性能提升了约 8%。这一优化虽然看似微小,但对于提升 ruby/json 的整体性能具有重要意义。

三、整数打印优化:细节之处见真章

(一)意外的发现:fltoa 函数的开销

在对性能分析结果进行进一步研究时,我们注意到在 fltoa 函数(用于将长整数转换为 ASCII 字符串)上花费了约 3.6% 的时间。虽然这一比例远未达到热点级别,但对于如此简单的函数来说,仍然过高。

(二)原函数实现的问题分析

fltoa 函数的实现方式较为奇特。它首先在栈上分配一个 20 字节的缓冲区,将整数的各位数字以逆序写入该缓冲区,然后再反转字符串,最后将栈缓冲区中的内容复制到输出缓冲区。这种方式在已知缓冲区大小且需要将结果复制到另一个缓冲区的情况下显得有些浪费。

(三)优化策略与实现

我们提出了一种更高效的优化方法,即直接在栈缓冲区中从后往前写入数字,这样就无需在最后反转数字,从而节省了计算资源。具体实现是通过修改 fltoa 函数,使其从缓冲区的末尾开始写入数字,并调整了相关的调用逻辑。

(四)优化后的效果展示

为了验证优化效果,我们构建了一个专门针对整数编码的微基准测试(使用 (1_000_000..1_001_000).to_a 作为测试数据)。测试结果表明,优化后的编码速度从约 8.8 万次 / 秒提升到了约 9.8 万次 / 秒,性能提升了约 11%。虽然这一优化可能仅在处理包含大量大整数的文档时才会有明显效果,但它展示了通过对细节的关注可以实现性能提升的潜力。

四、使用 RString 作为缓冲区的尝试:曲折的探索之路

(一)优化思路的提出:减少内存复制

鉴于之前的优化仍未达到理想效果,我们开始思考是否可以直接使用 Ruby String 作为缓冲区,这样可以让 Ruby 从一开始就管理内存,避免在处理完成后将缓冲区内容复制到另一个由 Ruby 管理的内存区域(在调用 str_enc_new 时发生)。此外,这还可以简化异常处理时的内存管理,减少潜在的内存泄漏风险。

(二)初次尝试的结果与困惑

然而,实际实现这一想法后,结果却不尽人意。在微基准测试中,性能不仅没有提升,反而出现了明显下降(从约 265 万次 / 秒降至约 220 万次 / 秒),在实际应用基准测试中,性能也基本没有变化。这一结果让我们感到困惑,需要深入探究背后的原因。

(三)深入分析:Ruby String 内存管理的复杂性

经过仔细研究,我们发现当 Ruby 调整 String 对象大小时,它不仅会像 ruby/json 对原始缓冲区那样调用 realloc,还会调用 malloc_usable_size(或其平台等效函数,如 malloc_size 在 macOS 上或 _msize 在 Windows 上)来获取当前内存块的实际大小,以便更新垃圾回收(GC)统计信息。这一额外的函数调用开销在某些情况下可能会抵消使用 Ruby String 作为缓冲区的优势。

(四)进一步优化的可能性与思考

尽管当前尝试未取得理想效果,但我们意识到可以通过更合理地初始化 String 对象来提高性能。具体来说,我们可以使用 rb_str_buf_new(state->buffer_initial_length - 1) 来预先分配足够大的缓冲区,以避免在处理过程中频繁调整大小。通过这一修改,在微基准测试中性能得到了显著提升(从约 262 万次 / 秒提升到了约 313 万次 / 秒),但在实际应用基准测试中,性能仍基本保持不变。这表明在优化过程中,需要综合考虑各种因素,以找到在不同场景下都能取得较好性能的解决方案。

五、变量宽度分配与嵌入式对象:内存管理的新视角

(一)Ruby 对象内存布局的基础知识

在 Ruby 中,对象的内存管理方式与 C 语言有所不同。Ruby 不会像 C 程序那样直接调用 malloc 来分配内存,而是向垃圾回收器(GC)请求所谓的 "槽"(slot),这些槽是由 GC 管理的内存页中的固定大小区域。

在 Ruby 3.2 引入变量宽度分配之前,所有 Ruby 槽的大小均为 40 字节。这就引发了一个问题:如何存储不同大小的对象,如字符串或数组呢?实际上,许多 Ruby 核心类型(如 StringArray 等)具有多种内部表示形式。

(二)字符串对象在 Ruby 中的存储方式

以字符串为例,其在内存中的布局由 RString 结构体定义。在 Ruby 3.2 之前,字符串对象在内存中的存储方式如下:如果字符串长度较短(不超过 15 个 ASCII 字符加上一个终止 NULL 字节,即总共 16 字节),它可以直接嵌入在对象槽中。此时,对象槽的前 16 字节用于存储对象的标志(flags)和指向对象类的指针(klass),剩余 24 字节用于存储字符串内容。

(三)变量宽度分配对字符串存储的影响

随着变量宽度分配的引入,Ruby 现在支持多种槽大小(40、80、160、320 和 640 字节)。虽然槽的大小仍然是固定的,但这使得 Ruby 在分配内存时能够更灵活地根据对象的大小选择合适的槽。例如,如果我们预先请求一个较大的字符串,Ruby 会尝试为其分配一个足够大的槽,以便将字符串内容直接嵌入其中,而无需在堆上进行额外的内存分配。

(四)优化的思考与未充分利用的潜力

在之前尝试使用 Ruby String 作为缓冲区的优化过程中,我们本可以更好地利用变量宽度分配的特性。通过请求一个足够大的对象槽(如 640 字节),我们可以在微基准测试中避免 mallocfree 调用,仅需进行相对便宜的对象槽分配。然而,由于当时未充分考虑到这一点,我们可能需要在未来的优化中重新审视这一策略,以进一步提高 ruby/json 的性能。

六、栈分配缓冲区大小调整:平衡性能与资源

(一)优化策略的调整:保守的栈分配

由于之前直接使用 Ruby String 作为缓冲区的尝试未能在所有场景下取得理想效果,我们决定回归使用栈分配来存储缓冲区内容,但采用更为保守的 512 字节大小。这一决策旨在在避免堆分配开销的同时,减少对栈空间的过度占用,以平衡性能和资源利用。

(二)实现细节与条件判断

为了实现这一优化,我们在 FBuffer 结构体中添加了一个额外的 type 字段,用于跟踪缓冲区的来源(栈或堆)。在 fbuffer_inc_capa 函数中,根据缓冲区的类型进行不同的处理。如果缓冲区在栈上且需要扩展容量,我们会在堆上分配一个更大的缓冲区,并将栈上的内容复制过去,然后更新缓冲区指针和类型信息。

(三)微基准测试中的性能提升

在微基准测试中,这一优化带来了约 7% 的性能提升(编码速度从约 284 万次 / 秒提升到了约 302 万次 / 秒),这表明合理调整栈分配缓冲区的大小可以在一定程度上提高性能。

(四)实际应用基准测试中的性能下降与问题排查

然而,在实际应用基准测试(如处理 twitter.json 文件)中,性能却出现了明显下降(从约 2.13 千次 / 秒降至约 1.57 千次 / 秒)。这一结果引起了我们的高度关注,我们立即使用性能分析工具进行排查。

(五)性能分析揭示的问题:内联优化的影响

通过性能分析,我们发现 generate_json_string 函数的运行时间占比从之前的 50% 大幅下降到了 3.1%,取而代之的是一系列由 generate_json_string 调用的较小函数占据了大部分运行时间。这是编译器内联优化的典型表现。内联优化是一种编译器技术,它会将小的叶子函数(通常是简单且频繁调用的函数)的代码直接复制到调用者函数中,以减少函数调用的开销。然而,在我们的优化过程中,由于 fbuffer_inc_capa 函数变得更大,编译器可能决定不再内联某些函数,从而导致性能下降。

(六)解决内联问题的方法

为了解决这一问题,我们将 fbuffer_inc_capa 函数中很少执行的大量代码提取到另一个未标记为 inline 的函数 fbuffer_do_inc_capa 中,然后在 fbuffer_inc_capa 函数中仅保留简单的条件判断,并在必要时调用 fbuffer_do_inc_capa。通过这一调整,我们成功地恢复了内联优化,使得在微基准测试中性能进一步提升(编码速度从约 302 万次 / 秒提升到了约 309 万次 / 秒),并且在实际应用基准测试中,性能也基本恢复到了之前的水平。

七、总结与展望:持续优化的征程

经过上述一系列优化,我们在重用 JSON::State 对象时,ruby/json 的性能已经超越了 oj,但在每次调用都分配 JSON::State 对象时,仍然明显落后。这表明我们仍有很大的改进空间,尤其是在自动重用 JSON::State 对象或完全避免其分配方面。在未来的工作中,我们将继续探索这些优化方向,致力于进一步提升 ruby/json 的性能,以满足实际应用的需求,并改变公众对其性能的看法。

希望本文能够为对 Ruby JSON 性能优化感兴趣的读者提供一些有价值的见解和思路。如果你在阅读过程中有任何疑问或建议,欢迎在评论区留言讨论。让我们一起期待 ruby/json 在性能优化之路上取得更大的突破!

科技脉搏,每日跳动。

与敖行客 Allthinker一起,创造属于开发者的多彩世界。

- 智慧链接 思想协作 -

相关推荐
计算机毕设指导6几秒前
基于Springboot的景区民宿预约系统【附源码】
java·开发语言·spring boot·后端·mysql·spring·intellij idea
计算机毕设指导63 分钟前
基于Springboot美食推荐商城系统【附源码】
java·前端·spring boot·后端·spring·tomcat·美食
pumpkin845148 分钟前
什么是 LuaJIT?
开发语言
云端 架构师23 分钟前
Lua语言的语法
开发语言·后端·golang
AI向前看27 分钟前
Objective-C语言的网络编程
开发语言·后端·golang
梦想的初衷~1 小时前
AI赋能R-Meta分析核心技术:从热点挖掘到高级模型、助力高效科研与论文发表
开发语言·人工智能·r语言
霜雪殇璃1 小时前
c++对结构体的扩充以及类的介绍
开发语言·c++·笔记·学习
编程小筑1 小时前
Clojure语言的并发编程
开发语言·后端·golang
心向阳光的天域1 小时前
黑马跟学.苍穹外卖.Day03
java·开发语言·spring boot
对酒当歌丶人生几何1 小时前
SpringBoot实现国际化
java·spring boot·后端·il8n