Python 将 HTML 转换为纯文本 TXT (HTML 文本提取)

1. 引言

在数据处理、内容提取、网页归档等任务中,经常需要将 HTML 转换为纯文本 TXT。常见需求包括去除 HTML 标签,保留文本内容,保留段落、列表等基本结构。

本文将介绍如何用 Python 和 Free Spire.Doc 库完成 HTML 到 TXT 的转换。


2. 转换原理

HTML 转 TXT 的本质是解析 HTML 文档对象模型(DOM) ,提取其中的文本节点,再按需要的格式输出。

常用方法有两类:

  1. 纯解析器 (如 BeautifulSouplxml):快速、轻量,但需要自己处理换行和缩进。
  2. 文档模型类库(如 Free Spire.Doc):加载 HTML 到文档对象,再导出为 TXT,结构保留更好。

3. 环境准备

安装 Free Spire.Doc for Python:

bash 复制代码
pip install Spire.Doc.free

注意点击查看免费版的限制


4. 基本实现

4.1 HTML 文件 → TXT 文件

下面是一个将 HTML 文件转换为 TXT 文本的简单示例:

python 复制代码
from spire.doc import *
from spire.doc.common import *

# 加载HTML文件
document = Document()
document.LoadFromFile("E:\input.html", FileFormat.Html, XHTMLValidationType.none)

# 另存为TXT文件
document.SaveToFile("Html文件转TXT.txt", FileFormat.Txt)
document.Close()

核心代码:

  • LoadFromFile() :加载 HTML 文件。FileFormat.Html 表示文件格式为 HTML。
  • SaveToFile() :将文档保存为 TXT 格式。FileFormat.Txt 表示保存为纯文本。

输出结果:

4.2 HTML 字符串 → TXT 文件

若 HTML 内容已在内存中(如接口返回、爬虫抓取结果),可使用该方法:

python 复制代码
from spire.doc import *
from spire.doc.common import *

# 指定HTML字符串
sample_html = """
<html>
<head><title>示例页面</title></head>
<body>
    <h1>欢迎来到我的网站</h1>
    <p>这是一个段落文本。</p>
    <ul>
        <li>项目1</li>
        <li>项目2</li>
        <li>项目3</li>
    </ul>
</body>
</html>
"""

# 创建文档
document = Document()
# 在段落中插入字符串
section = document.AddSection()
section.AddParagraph().AppendHTML(sample_html)

# 另存为TXT
document.SaveToFile("Html字符串转TXT.txt", FileFormat.Txt)
document.Close()

输出结果:


5. 注意事项

  • 格式保留:转换后的 TXT 会保留 HTML 的段落结构(换行、列表等),但不保留颜色、字体等样式。
  • 性能:对于超大型 HTML 文件,建议分段处理以避免内存占用过高。
  • 复杂 HTML:对于包含大量 JavaScript、CSS 或复杂布局的 HTML,建议先用对文件进行预处理再转换。

使用 Free Spire.Doc for Python 转换 HTML 到 TXT 非常方便,只需几行代码即可完成,并且能够较好地保留原有的文本结构。相比正则表达式或简单的标签剥离方法,这种方式更稳定可靠。

该免费库还支持将HTML导出为Word、PDF、图片等,具体示例可参考中文教程

相关推荐
啟明起鸣2 分钟前
【Go 与云原生】先从 Go 对与云原生的依赖关系讲起,再讲讲 一个简单的 Go 项目热热身
开发语言·云原生·golang
oioihoii8 分钟前
《C语言点滴》——笑着入门,扎实成长
c语言·开发语言
B站_计算机毕业设计之家15 分钟前
深度学习:python人脸表情识别系统 情绪识别系统 深度学习 神经网络CNN算法 ✅
python·深度学习·神经网络·算法·yolo·机器学习·cnn
waves浪游30 分钟前
基础开发工具(下)
linux·运维·服务器·开发语言·c++
QX_hao42 分钟前
【Go】--log模块的使用
开发语言·后端·golang
爱编程的鱼1 小时前
ESLint 是什么?
开发语言·网络·人工智能·网络协议
小陈不好吃1 小时前
Spring Boot配置文件加载顺序详解(含Nacos配置中心机制)
java·开发语言·后端·spring
合作小小程序员小小店1 小时前
web网页开发,在线%聚类,微博,舆情%系统,基于python,pycharm,django,nlp,kmeans,mysql
python·pycharm·kmeans·聚类·sklearn·kmean
Dan.Qiao1 小时前
python读文件readline和readlines区别和惰性读
开发语言·python·惰性读文件
渡我白衣1 小时前
链接的迷雾:odr、弱符号与静态库的三国杀
android·java·开发语言·c++·人工智能·深度学习·神经网络