Python 处理中文文件名的3个坑(附 Flask 上传解决函数)

最近在做一个 Flask 文件上传工具,用户上传了一个叫 产品图片.jpg 的文件,结果服务器上保存出来变成了空文件名,直接报错。排查下来发现是一个"老熟人"的锅------secure_filename()


坑一:secure_filename() 会吃掉中文

用 Flask 做文件上传,官方示例几乎都会这么写:

python 复制代码
from werkzeug.utils import secure_filename

filename = secure_filename("产品图片.jpg")
print(filename)  # 输出:.jpg  ← 文件名没了!

secure_filename() 的设计目标是过滤掉不安全字符,但它的"不安全"定义里包含了所有非 ASCII 字符,中文直接被扔掉。

如果文件名全是中文,返回的就是一个光秃秃的 .jpg,后续 open() 直接报错。


坑二:os.path 在 Windows 上的编码陷阱

在 Windows 环境下,如果脚本编码和系统编码不一致,os.path.exists()os.rename() 等操作中文路径时可能抛出:

复制代码
UnicodeEncodeError: 'gbk' codec can't encode character...

解决方式是确保脚本头部声明编码,并统一使用 pathlib.Path 替代 os.path

python 复制代码
# -*- coding: utf-8 -*-
from pathlib import Path

p = Path("D:/上传文件/产品图片.jpg")
print(p.exists())  # 正常工作

坑三:open() 写文件默认编码不是 UTF-8

python 复制代码
# 危险写法(Windows 下默认 GBK)
with open("结果.txt", "w") as f:
    f.write("中文内容")

# 安全写法
with open("结果.txt", "w", encoding="utf-8") as f:
    f.write("中文内容")

养成习惯,凡是涉及中文内容的文件读写,显式指定 encoding="utf-8"


解决函数:safe_chinese_filename()

针对坑一,自己封一个替代 secure_filename() 的函数,有需要的可以直接拿去用。保留中文的同时过滤真正危险的字符:

python 复制代码
import re
import uuid

def safe_chinese_filename(filename: str) -> str:
    """
    安全处理文件名,支持中文。
    - 保留中文、英文、数字、点、下划线、连字符
    - 过滤路径穿越字符(/ \\ .. 等)
    - 文件名为空时自动生成 UUID 文件名
    """
    # 分离文件名和扩展名
    if "." in filename:
        name, ext = filename.rsplit(".", 1)
        ext = "." + re.sub(r"[^\w]", "", ext)  # 扩展名只保留字母数字
    else:
        name, ext = filename, ""

    # 只保留中文、字母、数字、下划线、连字符
    name = re.sub(r"[^\w\u4e00-\u9fff\-]", "_", name)
    name = name.strip("_")

    # 如果处理后为空,用 UUID 兜底
    if not name:
        name = uuid.uuid4().hex[:8]

    return name + ext


# 测试
print(safe_chinese_filename("产品图片.jpg"))        # 产品图片.jpg
print(safe_chinese_filename("../../../etc/passwd")) # ______etc_passwd
print(safe_chinese_filename(".jpg"))                # a1b2c3d4.jpg(UUID兜底)
print(safe_chinese_filename("hello world.png"))     # hello_world.png

Flask 中替换使用:

python 复制代码
# 原来
filename = secure_filename(file.filename)

# 替换为
filename = safe_chinese_filename(file.filename)

总结这些坑,并填上

问题 原因 解决方案
中文文件名上传后消失 secure_filename() 过滤非 ASCII 使用自定义 safe_chinese_filename()
中文路径报编码错误 Windows GBK 与 UTF-8 不一致 改用 pathlib.Path
中文写入文件乱码 open() 默认编码非 UTF-8 显式声明 encoding="utf-8"

这三个坑我都在同一个项目里踩过,整理出来希望能帮你少走弯路。如果你也在用 Flask 做文件上传,safe_chinese_filename() 这个函数直接拿去用就行。


有问题欢迎评论区交流 👇

相关推荐
石一峰6996 分钟前
C 语言函数设计模式实战经验
c语言·开发语言·设计模式
秋99 分钟前
Python工程师面试常问提问和回答(AI工程化方向 · 2026版)
人工智能·python·面试
炎武丶航12 分钟前
LeNet-5深度学习详解:从手写数字识别到代码实战
人工智能·python·深度学习·机器学习·ai·cnn·lenet
sitellla13 分钟前
Pydub:用 Python 处理音频,不写废话
开发语言·python·其他·音视频
xingyuzhisuan21 分钟前
缓存命中率提升方案:从 30% 优化至 82% 全流程优化记录
java·开发语言·缓存·ai
TechWayfarer22 分钟前
云服务器地域怎么选:用离线IP数据库识别用户来源并优化部署
服务器·数据库·python·tcp/ip·数据分析
梦想不只是梦与想25 分钟前
Python 中的进程(Process)
python·进程·进程间通
郑洁文26 分钟前
基于Python的恶意流量监测系统的设计与实现
开发语言·python
星辰徐哥27 分钟前
Python AI基础:Matplotlib与Seaborn数据可视化
人工智能·python·matplotlib
AI玫瑰助手29 分钟前
Python流程控制:for循环与range函数的搭配使用
开发语言·python·信息可视化