【Python Cookbook】S02E15 在文本中处理 HTML 和 XML 实体

目录

问题

我们如果想要将 HTML 实体以及 XML 实体内容替换成相对应的文本内容,怎么做?

解决方案

python 复制代码
s = "Elements are written as '<tag>txt</tag>'."

import html
print(html.escape(s))
print("-"*20, "Disable escaping of quotes", "-"*20)
print(html.escape(s, quote=False))

结果为

python 复制代码
Elements are written as &#x27;&lt;tag&gt;txt&lt;/tag&gt;&#x27;.
-------------------- Disable escaping of quotes --------------------
Elements are written as '&lt;tag&gt;txt&lt;/tag&gt;'.

其中,解析出的各结果解释如下:

  • &#x27 代表 "
  • &lt 代表 <
  • &gt 代表 >

在第二个输出中,因为我们在 html.escape() 函数中添加参数 quote=False ,所以在结果中并不会解析 " 引号~

如果要生成 ASCII 文本,并且想针对非 ASCII 字符将其对应的字符编码实体嵌入到文本中,可以在各种同 I/O 相关的函数中使用 errors='xmlcharrefreplace' 参数来实现。

python 复制代码
s = "Spicy Jalapeño"
print(s.encode("ascii", errors="xmlcharrefreplace"))

结果:

python 复制代码
b'Spicy Jalape&#241;o'

如果由于某种原因在得到的文本中带有一些实体,而我们又想要得到其内容,可以利用 HTML 以及 XML 解析器自带的功能函数和方法来完成。

python 复制代码
s = "Spicy &quot;Jalape&#241;o&quot"
import html
print(html.unescape(s))
t = "The prompt is &gt;&gt;&gt;"
from xml.sax.saxutils import unescape
print(unescape(t))

结果

python 复制代码
Spicy "Jalapeño"
The prompt is >>>

讨论

在生成 HTMLXML 文档时,适当的对特殊字符做转义处理推荐使用如 html.escape() 这样的函数。

而如果要反过来,即将 HTMLXML 实体转换成对应的字符,推荐使用像 html.unescape()xml.sax.saxutils.unescape() 这样的函数。

相关推荐
林恒smileZAZ10 分钟前
移动端h5适配方案
人工智能·python·tensorflow
含目的基因的质粒12 分钟前
Python异常、模块、包
服务器·开发语言·python
二向箔reverse16 分钟前
用langchain搭建简单agent
人工智能·python·langchain
fxshy23 分钟前
python使用ffmpeg对视频进行转码
python·ffmpeg·音视频
关关长语1 小时前
Dotnet使用System.Xml.Serialization处理Xml序列化
xml·c#·.net
景彡先生2 小时前
Python requests详解:从入门到实战,HTTP请求的“瑞士军刀”
python
深度学习lover2 小时前
<数据集>yolo螺丝螺母识别数据集<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·螺丝螺母识别
Geoking.2 小时前
PyTorch 基础详解:tensor.item() 方法
人工智能·pytorch·python
ZIM学编程2 小时前
「学长有话说」作为一个大三学长,我想对大一计算机专业学生说这些!
java·c语言·数据结构·c++·python·学习·php
Dolphin_Home2 小时前
轻量实用的 XML 与 JSON / 对象互转工具类(Jackson 实现)
xml·java·json