[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel

本文展示如何用 Python 脚本:

  • 批量读取文件夹中的多篇中文文档;

  • jieba 分词并统计词频(过滤停用词与单字符);

  • 将各文档词频输出为对应 Excel 文件;

  • 是文本分析、内容审查、报告编写中的实用技巧。


📂 Step 1:批量加载文件夹中文本文件路径

python 复制代码
import os

path = '主要业务'
files = [os.path.join(path, f) for f in os.listdir(path)]
  • 使用标准库 os.listdir() 枚举目录中的文件;

  • 生成包含所有待处理文件路径的列表,便于后续遍历读取。


🔤 Step 2:分词 + 词频统计 + 停用词过滤

python 复制代码
import jieba

for file in files:
    txt = open(file, "r", encoding="utf-8").read()
    words = jieba.lcut(txt)
    freq = {}
    for w in words:
        if len(w) == 1:
            continue
        freq[w] = freq.get(w, 0) + 1

    stopWords = ["2019", "主要", "企业", "业务", "公司", "产品", "..."]
    for w in stopWords:
        freq.pop(w, None)

    items = sorted(freq.items(), key=lambda x: x[1], reverse=True)

📈 Step 3:导出词频结果至 Excel

python 复制代码
import pandas as pd

df = pd.DataFrame(items, columns=['词', '次数'])
basename = os.path.splitext(os.path.basename(file))[0]
df.to_excel(f"词频/{basename}.xlsx", index=False)
  • pandas.DataFrame 存储词频词典并导出;

  • stopWords 列表作用类似英文文本中的停用词过滤,使结果更有价值 stackoverflow.com


🖼️ 结果展示区

✅ 技术亮点与优化建议


📝 总结

通过这个小脚本,你可以高效:

  • 批处理多个文本文件;

  • 自动清洗文本,统计高频词;

  • 导出 Excel 结果,用于报告、分析或展示。

更多实用案例,代码,素材如下:

自取链接:https://pan.quark.cn/s/a46f30accea2

如果你希望下一步集成词云生成、分组对比分析,或英文与多语种混排文本处理,也可以继续告诉我,我可以为你定制更丰富的教程!