【Python Cookbook】S02E15 在文本中处理 HTML 和 XML 实体

目录

问题

我们如果想要将 HTML 实体以及 XML 实体内容替换成相对应的文本内容,怎么做?

解决方案

python 复制代码
s = "Elements are written as '<tag>txt</tag>'."

import html
print(html.escape(s))
print("-"*20, "Disable escaping of quotes", "-"*20)
print(html.escape(s, quote=False))

结果为

python 复制代码
Elements are written as &#x27;&lt;tag&gt;txt&lt;/tag&gt;&#x27;.
-------------------- Disable escaping of quotes --------------------
Elements are written as '&lt;tag&gt;txt&lt;/tag&gt;'.

其中,解析出的各结果解释如下:

  • &#x27 代表 "
  • &lt 代表 <
  • &gt 代表 >

在第二个输出中,因为我们在 html.escape() 函数中添加参数 quote=False ,所以在结果中并不会解析 " 引号~

如果要生成 ASCII 文本,并且想针对非 ASCII 字符将其对应的字符编码实体嵌入到文本中,可以在各种同 I/O 相关的函数中使用 errors='xmlcharrefreplace' 参数来实现。

python 复制代码
s = "Spicy Jalapeño"
print(s.encode("ascii", errors="xmlcharrefreplace"))

结果:

python 复制代码
b'Spicy Jalape&#241;o'

如果由于某种原因在得到的文本中带有一些实体,而我们又想要得到其内容,可以利用 HTML 以及 XML 解析器自带的功能函数和方法来完成。

python 复制代码
s = "Spicy &quot;Jalape&#241;o&quot"
import html
print(html.unescape(s))
t = "The prompt is &gt;&gt;&gt;"
from xml.sax.saxutils import unescape
print(unescape(t))

结果

python 复制代码
Spicy "Jalapeño"
The prompt is >>>

讨论

在生成 HTMLXML 文档时,适当的对特殊字符做转义处理推荐使用如 html.escape() 这样的函数。

而如果要反过来,即将 HTMLXML 实体转换成对应的字符,推荐使用像 html.unescape()xml.sax.saxutils.unescape() 这样的函数。

相关推荐
用户83562907805113 分钟前
Python 删除 Excel 工作表中的空白行列
后端·python
Json_14 分钟前
使用python-fastApi框架开发一个学校宿舍管理系统-前后端分离项目
后端·python·fastapi
数据智能老司机7 小时前
精通 Python 设计模式——分布式系统模式
python·设计模式·架构
数据智能老司机8 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机8 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机8 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i8 小时前
drf初步梳理
python·django
每日AI新事件8 小时前
python的异步函数
python
这里有鱼汤9 小时前
miniQMT下载历史行情数据太慢怎么办?一招提速10倍!
前端·python
databook18 小时前
Manim实现脉冲闪烁特效
后端·python·动效