1. 在线提取维基百科Wikipedia文章
本项目提供一个增强型 Wikipedia 概念条目抓取与摘要清洗脚本:支持多级回退策略 (wikipedia 库 →wikipediaapi → 直接网页 / REST 搜索)、智能标题匹配(精确/模糊判定)、摘要质量校验、内容结构化抽取、断点续跑(结果缓存)、统计输出与数据清洗(去噪、去引用标号、轻量LaTeX符号替换)。适合用于构建学术术语词典、知识图谱冷启动、LLM 领域语料补齐与教学概念集成。无需构建复杂爬虫即可稳健获取英文 Wikipedia 的首段知识性描述。
详情查看 https://download.csdn.net/download/virus1175/91763823
2. 离线批处理Wikipedia XML Dump文件
Wikipedia Dump Processor 是一个面向大规模 Wikipedia XML Dump 的流式解析与文本清洗工具,目标是生成"干净、结构合理、可控粒度"的原始文本语料。相比传统 WikiExtractor,它保持了更明确的处理流水线结构,便于二次插拔扩展(如引入分段策略、并行队列、向量化管道等)。