python-rapidjson：用 C++ 速度处理 JSON 的 Python 库

python-rapidjson 是一个将 RapidJSON 包装为 Python 扩展的库，目前在 GitHub 上获得了 532 个 Star。

RapidJSON 本身是腾讯开源的高性能 C++ JSON 解析库，以解析速度著称。python-rapidjson 将其核心能力暴露给 Python 3，支持 JSON 的序列化、反序列化，以及 JSON Schema 验证。

安装方式很直接，pip 或 conda 均可：

ruby 复制代码

$ pip install python-rapidjson

r 复制代码

$ conda install -c conda-forge python-rapidjson

基础用法与 Python 标准库 json 模块接近，上手成本很低：

python 复制代码

>>> import rapidjson
>>> data = {'foo': 100, 'bar': 'baz'}
>>> rapidjson.dumps(data)
'{"foo":100,"bar":"baz"}'
>>> rapidjson.loads('{"bar":"baz","foo":100}')
{'bar': 'baz', 'foo': 100}

库同时提供函数和类两种调用方式。大部分功能既可以通过 rapidjson.dumps、rapidjson.loads 等函数调用，也可以通过 Encoder、Decoder 类进行更细粒度的控制。

对于需要解析带注释或尾随逗号的 JSON 文件，可以用 Decoder 的 parse_mode 参数：

python 复制代码

>>> from rapidjson import Decoder
>>> from rapidjson import PM_COMMENTS, PM_TRAILING_COMMAS
>>> decoder = Decoder(parse_mode=PM_COMMENTS | PM_TRAILING_COMMAS)
>>> decoder('''
... {
...     "bar": /* Block comment */ "baz",
...     "foo":100, // Trailing comma and comment
... }
... ''')
{'bar': 'baz', 'foo': 100}

序列化也支持向类文件对象分块写入，适合流式处理场景：

python 复制代码

>>> class Stream:
...   def write(self, data):
...      print("Chunk:", data)
...
>>> rapidjson.dump(data, Stream(), chunk_size=5)
Chunk: b'{"foo'
Chunk: b'":100'
Chunk: b',"bar'
Chunk: b'":"ba'
Chunk: b'z"}'

性能是这个库的主要卖点。官方文档提供了与 Python 标准库 json 及其他第三方 JSON 库的基准测试对比。由于底层调用 C++ 实现，它在解析和序列化速度上明显快于纯 Python 方案。

API 设计方面，python-rapidjson 尽量保持与标准库 json 的兼容性，但并未追求完全的 drop-in 替代。文档中列出了几处行为差异，迁移之前可以先查阅相关说明。

整体来看，python-rapidjson 适合对 JSON 处理性能有明确要求的 Python 项目。如果你的应用场景涉及大量 JSON 数据的解析、生成或验证，这个库值得纳入考量。