Python 处理中文文件名的3个坑(附 Flask 上传解决函数)

最近在做一个 Flask 文件上传工具,用户上传了一个叫 产品图片.jpg 的文件,结果服务器上保存出来变成了空文件名,直接报错。排查下来发现是一个"老熟人"的锅------secure_filename()


坑一:secure_filename() 会吃掉中文

用 Flask 做文件上传,官方示例几乎都会这么写:

python 复制代码
from werkzeug.utils import secure_filename

filename = secure_filename("产品图片.jpg")
print(filename)  # 输出:.jpg  ← 文件名没了!

secure_filename() 的设计目标是过滤掉不安全字符,但它的"不安全"定义里包含了所有非 ASCII 字符,中文直接被扔掉。

如果文件名全是中文,返回的就是一个光秃秃的 .jpg,后续 open() 直接报错。


坑二:os.path 在 Windows 上的编码陷阱

在 Windows 环境下,如果脚本编码和系统编码不一致,os.path.exists()os.rename() 等操作中文路径时可能抛出:

复制代码
UnicodeEncodeError: 'gbk' codec can't encode character...

解决方式是确保脚本头部声明编码,并统一使用 pathlib.Path 替代 os.path

python 复制代码
# -*- coding: utf-8 -*-
from pathlib import Path

p = Path("D:/上传文件/产品图片.jpg")
print(p.exists())  # 正常工作

坑三:open() 写文件默认编码不是 UTF-8

python 复制代码
# 危险写法(Windows 下默认 GBK)
with open("结果.txt", "w") as f:
    f.write("中文内容")

# 安全写法
with open("结果.txt", "w", encoding="utf-8") as f:
    f.write("中文内容")

养成习惯,凡是涉及中文内容的文件读写,显式指定 encoding="utf-8"


解决函数:safe_chinese_filename()

针对坑一,自己封一个替代 secure_filename() 的函数,有需要的可以直接拿去用。保留中文的同时过滤真正危险的字符:

python 复制代码
import re
import uuid

def safe_chinese_filename(filename: str) -> str:
    """
    安全处理文件名,支持中文。
    - 保留中文、英文、数字、点、下划线、连字符
    - 过滤路径穿越字符(/ \\ .. 等)
    - 文件名为空时自动生成 UUID 文件名
    """
    # 分离文件名和扩展名
    if "." in filename:
        name, ext = filename.rsplit(".", 1)
        ext = "." + re.sub(r"[^\w]", "", ext)  # 扩展名只保留字母数字
    else:
        name, ext = filename, ""

    # 只保留中文、字母、数字、下划线、连字符
    name = re.sub(r"[^\w\u4e00-\u9fff\-]", "_", name)
    name = name.strip("_")

    # 如果处理后为空,用 UUID 兜底
    if not name:
        name = uuid.uuid4().hex[:8]

    return name + ext


# 测试
print(safe_chinese_filename("产品图片.jpg"))        # 产品图片.jpg
print(safe_chinese_filename("../../../etc/passwd")) # ______etc_passwd
print(safe_chinese_filename(".jpg"))                # a1b2c3d4.jpg(UUID兜底)
print(safe_chinese_filename("hello world.png"))     # hello_world.png

Flask 中替换使用:

python 复制代码
# 原来
filename = secure_filename(file.filename)

# 替换为
filename = safe_chinese_filename(file.filename)

总结这些坑,并填上

问题 原因 解决方案
中文文件名上传后消失 secure_filename() 过滤非 ASCII 使用自定义 safe_chinese_filename()
中文路径报编码错误 Windows GBK 与 UTF-8 不一致 改用 pathlib.Path
中文写入文件乱码 open() 默认编码非 UTF-8 显式声明 encoding="utf-8"

这三个坑我都在同一个项目里踩过,整理出来希望能帮你少走弯路。如果你也在用 Flask 做文件上传,safe_chinese_filename() 这个函数直接拿去用就行。


有问题欢迎评论区交流 👇

相关推荐
用户83562907805116 分钟前
Python 实现 PDF 文件加密与解密方法
后端·python
用户83562907805120 分钟前
使用 Python 冻结与拆分 Excel 窗格教程
后端·python
你好潘先生8 小时前
别再记命令了,用 yeero do 说句人话就能跑脚本,而且不烧 token
服务器·python·命令行
Agent_大师9 小时前
WebSocket 行情重连成功,K线缺口不会自动消失
python
荣码9 小时前
LLM结构化输出:让AI返回JSON而不是废话,我踩了4个坑
java·python
copyer_xyf9 小时前
FastAPI 如何连接 MySQL
后端·python
apocelipes1 天前
常用编程语言和库的正则表达式性能对比
c语言·c++·python·性能优化·golang·开发工具和环境
用户8356290780511 天前
使用 Python 在 PDF 中创建与管理书签
后端·python
MeixianAgent1 天前
Python 回测数据入口怎么验?历史 K 线入库前先做 5 个检查
后端·python
咕白m6251 天前
用 Python 实现一键批量查找与替换 Excel 数据
后端·python