pandas“将”迎来v3.0.0大版本更新!

pandas是Python数据科学方向必备工具,更新活跃,官网放出2025年即将迎来v3.0.0大版本更新! 下面参考Release notes,看看v3.0.0将带来哪些变化!

**温馨提示:**是否要升级到 pandas 3.0 是一个需要仔细权衡的决定。这个版本引入了一些激动人心的性能改进,但也包含了一些破坏性变更,可能会影响现有代码的正常运行。


使用更高效的专用字符串数据类型

  • 在 pandas 3.0 之前,字符串列默认是 object类型(不专一,效率低)。
  • 从 pandas 3.0 开始,字符串列默认是专用的 str类型(更专一,底层优先用 PyArrow 提升效率)

引入"copy-on-write"机制

核心变更要点:

  • 任何索引操作(例如,通过任何方式对 DataFrame 或 Series 进行子集选择,包括将 DataFrame 的列作为 Series 访问)或任何返回新 DataFrame 或 Series 的方法,其结果在用户 API 层面都将始终表现得像一个独立的副本。
  • 因此,如果您需要修改一个 DataFrame 或 Series 对象,唯一可靠的方式是直接修改这个对象本身。这意味着,以往可能通过操作其派生对象(例如视图)来间接修改原数据的模式将不再有效。

目的:

  • 让用户API的行为更加一致和可预测,现在有一条明确的规则:任何子集或返回的Series/DataFrame的行为都如同原始数据的副本,因此永远不会改变原始数据(在pandas 3.0之前,派生对象到底是副本还是视图取决于具体操作,这常常令人困惑)。
  • 避免不必要的副本以提高性能,虽然用户层面每个索引操作或方法返回的新DataFrame或Series行为如同副本,但pandas在底层会尽可能使用视图,并仅在需要保证"行为如同副本"时才进行实际复制(这就是底层实现的"写时复制"机制)

注意:

  • 这部分行为变化是pandas 3.0中的破坏性变更。建议在升级到pandas 3.0之前,先升级到pandas 2.3版本,以便针对部分变更获取弃用警告。迁移指南详细解释了升级过程

优化时间戳精度

当将字符串序列、datetime对象或np.datetime64对象转换为datetime64数据类型时,现在会自动推断输出数据类型(即datetime64[dtype])的适当时间分辨率(也称为单位,如纳秒、微秒、毫秒、秒等)。

同一这一变更影响Series、DataFrame、Index、DatetimeIndex的创建以及to_datetime()函数的行为。

例如,


优化凌乱的缺省值

pandas3.0在默认设置下,缺省值(例如,NA、NoneNaNpd.NA 会被统一视为 NA,这使得缺失值语义更加清晰。

目的:提升缺失值处理在可空数据类型中的一致性和可预测性。


pd.col语法

现在,可以在 DataFrame.assign()DataFrame.loc()中使用 pd.col语法来创建可在相应方法中使用的可调用对象。

例如,对于一个名为 df的 DataFrame,需要对a和b列求和:


优化分组操作groupby

在 pandas 的分组操作中,对于 observed=False时的行为得到了改进。此改进修复了多个与未观测组处理相关的错误(例如,函数接收到空数据或全为0的输入)。

此次优化旨在使 observed参数的行为更加一致和符合直觉。

优化后影响一大波groupby相关方法:


优化其它

pandas 3.0除了以上优化,还包含了大量针对API、性能、IO操作和类型系统的增强,请参考官网。

**再次温馨提示:**是否要升级到 pandas 3.0 是一个需要仔细权衡的决定。这个版本引入了一些激动人心的性能改进,但也包含了一些破坏性变更,可能会影响现有代码的正常运行。

更多变化参考pandas官网。

相关推荐
m0_748554817 小时前
golang如何实现用户订阅偏好管理_golang用户订阅偏好管理实现总结
jvm·数据库·python
smj2302_796826528 小时前
解决leetcode第3911题.移除子数组元素后第k小偶数
数据结构·python·算法·leetcode
阿正呀9 小时前
Redis怎样实现本地缓存的高效失效通知
jvm·数据库·python
2501_901200539 小时前
mysql如何设置InnoDB引擎参数_优化innodb_buffer_pool
jvm·数据库·python
_.Switch9 小时前
东方财富股票数据JS逆向:secids字段和AES加密实战
开发语言·前端·javascript·网络·爬虫·python·ecmascript
Mr_sst9 小时前
Claude Code 部署与使用保姆级教程(2026 最新)
python·ai
瞎某某Blinder9 小时前
DFT学习记录[6]基于 HES06的能带计算+有效质量计算
python·学习·程序人生·数据挖掘·云计算·学习方法
m0_4954964110 小时前
mysql处理复杂SQL性能_InnoDB优化器与MyISAM差异
jvm·数据库·python
forEverPlume11 小时前
PHP怎么使用Eloquent Attribute Composition属性组合_Laravel通过组合构建复杂属性【方法】
jvm·数据库·python
Aleeeeex11 小时前
RAG 那点事:从 8 份企业文档到能用的问答系统,全过程拆给你看
人工智能·python·ai编程