本地文档批量统计词权

如果你需要在 Windows 桌面端对同一目录下大量纯文本做批量词频统计,并可选带上 TF-IDF、BM25 两列用于后续筛选或简报,可以用【批量文档词频权重统计工具】。下文只记操作与产物,不写任何公式或底层实现。

前置条件:语料必须是 .txt;放在同一主文件夹内,需要时勾选「遍历子目录」把子文件夹里的 txt 一并扫进来。

主界面选路径支持浏览与拖拽。计算选项里「词频」不可取消;需要对比「跨文档更显眼」的词时勾选 TF-IDF,需要另一种常见检索权重时再勾选 BM25,二者可同开。勾选后「显示排序」下拉里会出现对应字段,便于你在结果区按不同指标预览前 200 条。

过滤区「最小词长」「最小词频」按语料规模调。噪声多就提高词长或词频门槛。菜单「停用词/词典」里可维护停用词:从 txt 批量导入、导出备份、恢复默认,或在列表里增删。另有「自定义词典」页,按界面示例准备每行词条,可提升领域专有词被整词识别的概率。

点开始后排进度与日志;失败文件会标明读取问题。底部摘要给总文件数、成功/失败/跳过、总词数与去重词数。结果文本框仅展示前两百词,全量请用「导出」生成 CSV:在弹出框选排序字段、升降序、是否导出全部或仅前 N 条。

说明:纯标点、停用表里的词、过短的词以及纯数字形式会被过滤,具体以运行结果为准。若中途停止,是否仍能导出部分结果视当时完成情况而定,建议重要任务一次跑完或先小样验证。

相关推荐
阿钱真强道8 天前
37 Python 时序和文本:词袋模型 BoW 和 TF-IDF 到底怎么理解?
python·nlp·tf-idf·文本向量化·词袋模型·bow
Dway10 天前
TF-IDF
tf-idf
我材不敲代码21 天前
Python 实战——红楼梦文本分析全流程:从分卷处理到分词再到TF-IDF 提取核心关键词
人工智能·自然语言处理·tf-idf
光羽隹衡2 个月前
机器学习——TF-IDF实战(红楼梦数据处理)
python·tf-idf
囊中之锥.3 个月前
从分词到词云:基于 TF-IDF 的中文关键词提取实践
前端·tf-idf·easyui
光羽隹衡3 个月前
机器学习——自然语言处理之关键词提取任务(TF-IDF)
机器学习·自然语言处理·tf-idf
Pyeako3 个月前
机器学习--TF-IDF&红楼梦案例
机器学习·nlp·tf-idf·红楼梦·自然语言学习
子夜江寒3 个月前
基于 TF-IDF 的《红楼梦》分卷文本关键词提取分析
tf-idf
薛不痒3 个月前
机器学习算法之TF-idf
人工智能·算法·机器学习·tf-idf