pandas“将”迎来v3.0.0大版本更新!

pandas是Python数据科学方向必备工具,更新活跃,官网放出2025年即将迎来v3.0.0大版本更新! 下面参考Release notes,看看v3.0.0将带来哪些变化!

**温馨提示:**是否要升级到 pandas 3.0 是一个需要仔细权衡的决定。这个版本引入了一些激动人心的性能改进,但也包含了一些破坏性变更,可能会影响现有代码的正常运行。


使用更高效的专用字符串数据类型

  • 在 pandas 3.0 之前,字符串列默认是 object类型(不专一,效率低)。
  • 从 pandas 3.0 开始,字符串列默认是专用的 str类型(更专一,底层优先用 PyArrow 提升效率)

引入"copy-on-write"机制

核心变更要点:

  • 任何索引操作(例如,通过任何方式对 DataFrame 或 Series 进行子集选择,包括将 DataFrame 的列作为 Series 访问)或任何返回新 DataFrame 或 Series 的方法,其结果在用户 API 层面都将始终表现得像一个独立的副本。
  • 因此,如果您需要修改一个 DataFrame 或 Series 对象,唯一可靠的方式是直接修改这个对象本身。这意味着,以往可能通过操作其派生对象(例如视图)来间接修改原数据的模式将不再有效。

目的:

  • 让用户API的行为更加一致和可预测,现在有一条明确的规则:任何子集或返回的Series/DataFrame的行为都如同原始数据的副本,因此永远不会改变原始数据(在pandas 3.0之前,派生对象到底是副本还是视图取决于具体操作,这常常令人困惑)。
  • 避免不必要的副本以提高性能,虽然用户层面每个索引操作或方法返回的新DataFrame或Series行为如同副本,但pandas在底层会尽可能使用视图,并仅在需要保证"行为如同副本"时才进行实际复制(这就是底层实现的"写时复制"机制)

注意:

  • 这部分行为变化是pandas 3.0中的破坏性变更。建议在升级到pandas 3.0之前,先升级到pandas 2.3版本,以便针对部分变更获取弃用警告。迁移指南详细解释了升级过程

优化时间戳精度

当将字符串序列、datetime对象或np.datetime64对象转换为datetime64数据类型时,现在会自动推断输出数据类型(即datetime64[dtype])的适当时间分辨率(也称为单位,如纳秒、微秒、毫秒、秒等)。

同一这一变更影响Series、DataFrame、Index、DatetimeIndex的创建以及to_datetime()函数的行为。

例如,


优化凌乱的缺省值

pandas3.0在默认设置下,缺省值(例如,NA、NoneNaNpd.NA 会被统一视为 NA,这使得缺失值语义更加清晰。

目的:提升缺失值处理在可空数据类型中的一致性和可预测性。


pd.col语法

现在,可以在 DataFrame.assign()DataFrame.loc()中使用 pd.col语法来创建可在相应方法中使用的可调用对象。

例如,对于一个名为 df的 DataFrame,需要对a和b列求和:


优化分组操作groupby

在 pandas 的分组操作中,对于 observed=False时的行为得到了改进。此改进修复了多个与未观测组处理相关的错误(例如,函数接收到空数据或全为0的输入)。

此次优化旨在使 observed参数的行为更加一致和符合直觉。

优化后影响一大波groupby相关方法:


优化其它

pandas 3.0除了以上优化,还包含了大量针对API、性能、IO操作和类型系统的增强,请参考官网。

**再次温馨提示:**是否要升级到 pandas 3.0 是一个需要仔细权衡的决定。这个版本引入了一些激动人心的性能改进,但也包含了一些破坏性变更,可能会影响现有代码的正常运行。

更多变化参考pandas官网。

相关推荐
阿尔的代码屋2 小时前
[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent
人工智能·python
AI探索者20 小时前
LangGraph StateGraph 实战:状态机聊天机器人构建指南
python
AI探索者20 小时前
LangGraph 入门:构建带记忆功能的天气查询 Agent
python
FishCoderh21 小时前
Python自动化办公实战:批量重命名文件,告别手动操作
python
躺平大鹅21 小时前
Python函数入门详解(定义+调用+参数)
python
曲幽1 天前
我用FastAPI接ollama大模型,差点被asyncio整崩溃(附对话窗口实战)
python·fastapi·web·async·httpx·asyncio·ollama
两万五千个小时1 天前
落地实现 Anthropic Multi-Agent Research System
人工智能·python·架构
哈里谢顿1 天前
Python 高并发服务限流终极方案:从原理到生产落地(2026 实战指南)
python
用户8356290780512 天前
无需 Office:Python 批量转换 PPT 为图片
后端·python
markfeng82 天前
Python+Django+H5+MySQL项目搭建
python·django