在python爬虫中xpath方式提取lxml.etree._ElementUnicodeResult转化为字符串str类型

简单提取网页中的数据时发现的

当通过xpath方式提取出需要的数据的text文本后想要转为字符串,但出现lxml.etree._ElementUnicodeResult的数据类型不能序列化,在网上查找到很多说是编码问题Unicode编码然后解码什么的;有些是(导入的xml库而不是lmxl库)[https://blog.51cto.com/u_16213415/11531934\],后来在(一个博文)[https://www.cnblogs.com/biyeee/p/9429392.html\]中,作者直接把数据转为浮点flaot型的数据,那么直接强制转换为string应该也是没问题的。

代码中可以看出

python 复制代码
import requests

import json
from lxml import etree

# from jsonpath import jsonpath
url = ''   # 需要写入自己的url
headers = {
"user-agent":""   ##填写自己的浏览器代理
 }
ret = requests.get(url,headers=headers)

rel_html = etree.HTML(ret.text)
# print(ret.text)
# 选择合适的xpath条件
end = rel_html.xpath('//*[@id="userSkin"]/div[1]/div[2]/div[1]/div/div[2]/div[2]/ul/li[4]/a/div[1]/text()')
print(end)      
print(type(end[0]))
xml_str = str(end[0])
print(xml_str.replace(',',''))

xpath中的语法导致最终获取对象不同

一个是标签节点,一个是节点下的文本 ,导致最终结果的数据类型不同

相关推荐
百***78751 天前
Grok-4.1与GPT-5.2深度对比:技术差异、适用场景及Python集成指南
java·python·gpt
黎雁·泠崖1 天前
吃透Java操作符进阶:算术+移位操作符 全解析(Java&C区别+完整案例+避坑指南)
java·c语言·python
用针戳左手中指指头1 天前
AI小白搞AI之目标检测:王者荣耀画面识别
人工智能·python·yolo·目标检测·王者荣耀
大学生毕业题目1 天前
毕业项目推荐:105-基于yolov8/yolov5/yolo11的烟草等级检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·烟草等级
旅途中的宽~1 天前
【Python】pip install -v e .命令不想自动更新torch版本
开发语言·python·pip
海棠AI实验室1 天前
第 3 篇:方案写作——SOW / 里程碑 / 验收标准 / 风险假设的标准模板
数据库·python
高洁011 天前
AI智能体搭建(4)
python·深度学习·机器学习·transformer·知识图谱
IT=>小脑虎1 天前
Python爬虫零基础学习知识点详解【基础版】
爬虫·python·学习
做萤石二次开发的哈哈1 天前
萤石开放平台 萤石可编程设备 | 设备 Python SDK 使用说明
开发语言·网络·python·php·萤石云·萤石
知乎的哥廷根数学学派1 天前
基于多物理约束融合与故障特征频率建模的滚动轴承智能退化趋势分析(Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习