本文详解在 Polars 中通过 storage_options 正确配置 AWS 凭据(含 Session Token)以安全、可靠地读取 S3 上的 Parquet 文件,避免 403 Forbidden 等权限错误。 本文详解在 polars 中通过 `storage_options` 正确配置 aws 凭据(含 session token)以安全、可靠地读取 s3 上的 parquet 文件,避免 403 forbidden 等权限错误。在使用 Polars 读取 AWS S3 上的 Parquet 文件时,仅传递 aws_access_key_id 和 aws_secret_access_key 往往不够------尤其当你的 AWS Profile 使用了基于角色的临时凭证(如通过 aws sts assume-role 或 SSO 登录获取)时,必须显式传入 aws_session_token,否则将触发 ComputeError: Client error with status 403 Forbidden。这是因为 Polars 的底层对象存储客户端(object_store)不自动解析本地 ~/.aws/credentials 或 ~/.aws/config 中的 profile 配置,也无法隐式加载 session token。? 推荐做法:使用 boto3 获取完整冻结凭证以下代码展示了最健壮、跨环境兼容的写法,适用于 IAM 用户密钥、角色扮演(AssumeRole)、SSO 登录等多种认证场景:import polars as plimport boto3# 指定本地 AWS Profile 名称(需已通过 aws-cli 配置)profile_name = "my-prod-profile"s3_path = "s3://my-s3-bucket/data/output.parquet"# 创建 boto3 session 并提取完整凭证(含 token)session = boto3.Session(profile_name=profile_name)credentials = session.get_credentials().get_frozen_credentials()# 构建 storage_options ------ 必须包含三项核心凭证 + regionstorage_options = { "aws_access_key_id": credentials.access_key, "aws_secret_access_key": credentials.secret_key, "aws_session_token": credentials.token, # ?? 关键!不可省略 "aws_region": session.region_name or "us-east-1", # 建议显式指定}# 使用 read_parquet(立即执行)或 scan_parquet(惰性执行)df = pl.read_parquet(s3_path, storage_options=storage_options)# 或:lf = pl.scan_parquet(s3_path, storage_options=storage_options).collect()?? 注意事项与最佳实践不要硬编码凭证:始终优先使用 boto3.Session(profile_name=...) 动态获取凭证,而非手动设置环境变量或明文密钥。aws_session_token 是必需的:若 credentials.token 为 None(例如使用长期 IAM 密钥),可安全省略该字段;但只要 profile 启用了 MFA、SSO 或 AssumeRole,token 就一定存在且必须传递。Region 必须匹配:aws_region 应与 S3 bucket 所在区域一致,否则可能引发签名错误(SignatureDoesNotMatch)。惰性 vs 立即加载:pl.read_parquet():直接返回 DataFrame,适合小到中等规模数据;pl.scan_parquet():返回 LazyFrame,支持链式过滤/投影下推(pushdown),大幅提升大文件处理效率,推荐用于生产 ETL 流程。替代方案(高级用户):若希望完全复用 AWS CLI 配置(包括 credential_process 或 sso),可改用 polars 0.20.20+ 版本支持的 anonymous=False + 自动凭据链(需确保 AWS_PROFILE 环境变量已设,且 boto3 可访问):import osos.environ["AWS_PROFILE"] = "my-prod-profile" # 仅当未显式传 storage_options 时生效df = pl.read_parquet("s3://bucket/key.parquet") # Polars 会尝试自动加载但该方式透明性低、调试困难,生产环境仍强烈推荐显式传参。? 验证是否成功运行后可通过以下方式快速验证连接与权限: Ideogram Ideogram是一个全新的文本转图像AI绘画生成平台,擅长于生成带有文本的图像,如LOGO上的字母、数字等。
相关推荐
运维小子11 小时前
JumpServer Applet 发布自定义远程应用:Oracle SQL Developer 自动登录m0_5967490911 小时前
Golang怎么实现方法集与接口的匹配_Golang如何理解值类型和指针类型实现接口的区别【详解】学习 来了来了11 小时前
权限相关代码-表薪火铺子11 小时前
MySQL 分库分表实战:ShardingSphere 深度解析lifewange11 小时前
查询【学过 001 号同学所有课程】的学生ErizJ12 小时前
Redis|腾讯面经总结隔壁小红馆12 小时前
隐藏odoo特有lifewange12 小时前
pytest 找不到文件?直接在 pytest.ini 配置根目录 + 路径(最简单方案)瀚高PG实验室12 小时前
left link changed unexpectedly in block xxxx of index ““index_xxxxx“一只幸运猫.12 小时前
核心概念层——深入理解 Agent 是什么