Python 处理中文文件名的3个坑(附 Flask 上传解决函数)

最近在做一个 Flask 文件上传工具,用户上传了一个叫 产品图片.jpg 的文件,结果服务器上保存出来变成了空文件名,直接报错。排查下来发现是一个"老熟人"的锅------secure_filename()


坑一:secure_filename() 会吃掉中文

用 Flask 做文件上传,官方示例几乎都会这么写:

python 复制代码
from werkzeug.utils import secure_filename

filename = secure_filename("产品图片.jpg")
print(filename)  # 输出:.jpg  ← 文件名没了!

secure_filename() 的设计目标是过滤掉不安全字符,但它的"不安全"定义里包含了所有非 ASCII 字符,中文直接被扔掉。

如果文件名全是中文,返回的就是一个光秃秃的 .jpg,后续 open() 直接报错。


坑二:os.path 在 Windows 上的编码陷阱

在 Windows 环境下,如果脚本编码和系统编码不一致,os.path.exists()os.rename() 等操作中文路径时可能抛出:

复制代码
UnicodeEncodeError: 'gbk' codec can't encode character...

解决方式是确保脚本头部声明编码,并统一使用 pathlib.Path 替代 os.path

python 复制代码
# -*- coding: utf-8 -*-
from pathlib import Path

p = Path("D:/上传文件/产品图片.jpg")
print(p.exists())  # 正常工作

坑三:open() 写文件默认编码不是 UTF-8

python 复制代码
# 危险写法(Windows 下默认 GBK)
with open("结果.txt", "w") as f:
    f.write("中文内容")

# 安全写法
with open("结果.txt", "w", encoding="utf-8") as f:
    f.write("中文内容")

养成习惯,凡是涉及中文内容的文件读写,显式指定 encoding="utf-8"


解决函数:safe_chinese_filename()

针对坑一,自己封一个替代 secure_filename() 的函数,有需要的可以直接拿去用。保留中文的同时过滤真正危险的字符:

python 复制代码
import re
import uuid

def safe_chinese_filename(filename: str) -> str:
    """
    安全处理文件名,支持中文。
    - 保留中文、英文、数字、点、下划线、连字符
    - 过滤路径穿越字符(/ \\ .. 等)
    - 文件名为空时自动生成 UUID 文件名
    """
    # 分离文件名和扩展名
    if "." in filename:
        name, ext = filename.rsplit(".", 1)
        ext = "." + re.sub(r"[^\w]", "", ext)  # 扩展名只保留字母数字
    else:
        name, ext = filename, ""

    # 只保留中文、字母、数字、下划线、连字符
    name = re.sub(r"[^\w\u4e00-\u9fff\-]", "_", name)
    name = name.strip("_")

    # 如果处理后为空,用 UUID 兜底
    if not name:
        name = uuid.uuid4().hex[:8]

    return name + ext


# 测试
print(safe_chinese_filename("产品图片.jpg"))        # 产品图片.jpg
print(safe_chinese_filename("../../../etc/passwd")) # ______etc_passwd
print(safe_chinese_filename(".jpg"))                # a1b2c3d4.jpg(UUID兜底)
print(safe_chinese_filename("hello world.png"))     # hello_world.png

Flask 中替换使用:

python 复制代码
# 原来
filename = secure_filename(file.filename)

# 替换为
filename = safe_chinese_filename(file.filename)

总结这些坑,并填上

问题 原因 解决方案
中文文件名上传后消失 secure_filename() 过滤非 ASCII 使用自定义 safe_chinese_filename()
中文路径报编码错误 Windows GBK 与 UTF-8 不一致 改用 pathlib.Path
中文写入文件乱码 open() 默认编码非 UTF-8 显式声明 encoding="utf-8"

这三个坑我都在同一个项目里踩过,整理出来希望能帮你少走弯路。如果你也在用 Flask 做文件上传,safe_chinese_filename() 这个函数直接拿去用就行。


有问题欢迎评论区交流 👇

相关推荐
j_xxx404_1 小时前
Linux进程信号捕捉与操作系统运行本质深度解析
linux·运维·服务器·开发语言·c++·人工智能·ai
AI技术控1 小时前
KV Cache 缓存机制的原理和应用:从 Transformer 推理到大模型服务优化
人工智能·python·深度学习·缓存·自然语言处理·transformer
我是一颗柠檬2 小时前
【JavaSE全面教学】Java集合框架下Day13(2026年)
java·开发语言·intellij-idea
吃好睡好便好2 小时前
用if…end…语句计算分段函数
开发语言·人工智能·学习·算法·matlab
vx-程序开发2 小时前
基于机器学习的动漫可视化系统的设计与实现-计算机毕业设计源码08339
java·c++·spring boot·python·spring·django·php
风继续吹..2 小时前
C# 文件 IO 实操练习题 5道
开发语言·c#
爱睡懒觉的焦糖玛奇朵2 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具Video To YOLO Dataset】
人工智能·python·学习·yolo·音视频
Dust-Chasing3 小时前
Claude Code源码剖析 - Phase3
开发语言·人工智能·学习
石榴树下的七彩鱼3 小时前
医疗票据 OCR 识别 API 多场景落地指南:医保结算 + 商保理赔 + 医疗信息化(附 Python/Java 完整示例)
java·python·ocr·石榴智能·医疗票据ocr·医保结算·ocrapi