python-rapidjson:用 C++ 速度处理 JSON 的 Python 库

python-rapidjson 是一个将 RapidJSON 包装为 Python 扩展的库,目前在 GitHub 上获得了 532 个 Star。

RapidJSON 本身是腾讯开源的高性能 C++ JSON 解析库,以解析速度著称。python-rapidjson 将其核心能力暴露给 Python 3,支持 JSON 的序列化、反序列化,以及 JSON Schema 验证。
安装方式很直接,pip 或 conda 均可:
ruby
$ pip install python-rapidjson
r
$ conda install -c conda-forge python-rapidjson
基础用法与 Python 标准库 json 模块接近,上手成本很低:
python
>>> import rapidjson
>>> data = {'foo': 100, 'bar': 'baz'}
>>> rapidjson.dumps(data)
'{"foo":100,"bar":"baz"}'
>>> rapidjson.loads('{"bar":"baz","foo":100}')
{'bar': 'baz', 'foo': 100}
库同时提供函数和类两种调用方式。大部分功能既可以通过 rapidjson.dumps、rapidjson.loads 等函数调用,也可以通过 Encoder、Decoder 类进行更细粒度的控制。
对于需要解析带注释或尾随逗号的 JSON 文件,可以用 Decoder 的 parse_mode 参数:
python
>>> from rapidjson import Decoder
>>> from rapidjson import PM_COMMENTS, PM_TRAILING_COMMAS
>>> decoder = Decoder(parse_mode=PM_COMMENTS | PM_TRAILING_COMMAS)
>>> decoder('''
... {
... "bar": /* Block comment */ "baz",
... "foo":100, // Trailing comma and comment
... }
... ''')
{'bar': 'baz', 'foo': 100}
序列化也支持向类文件对象分块写入,适合流式处理场景:
python
>>> class Stream:
... def write(self, data):
... print("Chunk:", data)
...
>>> rapidjson.dump(data, Stream(), chunk_size=5)
Chunk: b'{"foo'
Chunk: b'":100'
Chunk: b',"bar'
Chunk: b'":"ba'
Chunk: b'z"}'
性能是这个库的主要卖点。官方文档提供了与 Python 标准库 json 及其他第三方 JSON 库的基准测试对比。由于底层调用 C++ 实现,它在解析和序列化速度上明显快于纯 Python 方案。
API 设计方面,python-rapidjson 尽量保持与标准库 json 的兼容性,但并未追求完全的 drop-in 替代。文档中列出了几处行为差异,迁移之前可以先查阅相关说明。
整体来看,python-rapidjson 适合对 JSON 处理性能有明确要求的 Python 项目。如果你的应用场景涉及大量 JSON 数据的解析、生成或验证,这个库值得纳入考量。