在python爬虫中xpath方式提取lxml.etree._ElementUnicodeResult转化为字符串str类型

简单提取网页中的数据时发现的

当通过xpath方式提取出需要的数据的text文本后想要转为字符串,但出现lxml.etree._ElementUnicodeResult的数据类型不能序列化,在网上查找到很多说是编码问题Unicode编码然后解码什么的;有些是(导入的xml库而不是lmxl库)[https://blog.51cto.com/u_16213415/11531934\],后来在(一个博文)[https://www.cnblogs.com/biyeee/p/9429392.html\]中,作者直接把数据转为浮点flaot型的数据,那么直接强制转换为string应该也是没问题的。

代码中可以看出

python 复制代码
import requests

import json
from lxml import etree

# from jsonpath import jsonpath
url = ''   # 需要写入自己的url
headers = {
"user-agent":""   ##填写自己的浏览器代理
 }
ret = requests.get(url,headers=headers)

rel_html = etree.HTML(ret.text)
# print(ret.text)
# 选择合适的xpath条件
end = rel_html.xpath('//*[@id="userSkin"]/div[1]/div[2]/div[1]/div/div[2]/div[2]/ul/li[4]/a/div[1]/text()')
print(end)      
print(type(end[0]))
xml_str = str(end[0])
print(xml_str.replace(',',''))

xpath中的语法导致最终获取对象不同

一个是标签节点,一个是节点下的文本 ,导致最终结果的数据类型不同

相关推荐
CodeLongBear1 分钟前
从Java后端到Python大模型:我的学习转型与规划
java·python·学习
ada7_13 分钟前
LeetCode(python)——49.字母异位词分组
java·python·leetcode
我的xiaodoujiao20 分钟前
使用 Python 语言 从 0 到 1 搭建完整 Web UI自动化测试学习系列 23--数据驱动--参数化处理 Yaml 文件
python·学习·测试工具·pytest
晨尘光28 分钟前
【pycharm 创建一个线程,在线程函数中增加的日志打印,日志打印了,但是打断点进不去】
ide·python·pycharm
databook1 小时前
manim边做边学--文字创建销毁的打字机效果
后端·python·动效
小艳加油1 小时前
AI+Python近红外光谱分析机器学习与深度学习实战,覆盖提示词撰写、数据预处理、回归/神经网络/集成学习/迁移学习/可解释性可视化等
python·近红外光谱分析·多元线性回归
雪碧聊技术1 小时前
手刃一个爬虫小案例
爬虫·第一个爬虫案例
JamSlade2 小时前
SSO登录验证设计要点细节(以微软 Microsoft SSO为例) 基于react python
python·react.js·microsoft
MediaTea3 小时前
Python 文件操作:JSON 格式
开发语言·windows·python·json
百锦再3 小时前
金仓数据库提出“三低一平”的迁移理念
开发语言·数据库·后端·python·rust·eclipse·pygame