在python爬虫中xpath方式提取lxml.etree._ElementUnicodeResult转化为字符串str类型

简单提取网页中的数据时发现的

当通过xpath方式提取出需要的数据的text文本后想要转为字符串,但出现lxml.etree._ElementUnicodeResult的数据类型不能序列化,在网上查找到很多说是编码问题Unicode编码然后解码什么的;有些是(导入的xml库而不是lmxl库)[https://blog.51cto.com/u_16213415/11531934\],后来在(一个博文)[https://www.cnblogs.com/biyeee/p/9429392.html\]中,作者直接把数据转为浮点flaot型的数据,那么直接强制转换为string应该也是没问题的。

代码中可以看出

python 复制代码
import requests

import json
from lxml import etree

# from jsonpath import jsonpath
url = ''   # 需要写入自己的url
headers = {
"user-agent":""   ##填写自己的浏览器代理
 }
ret = requests.get(url,headers=headers)

rel_html = etree.HTML(ret.text)
# print(ret.text)
# 选择合适的xpath条件
end = rel_html.xpath('//*[@id="userSkin"]/div[1]/div[2]/div[1]/div/div[2]/div[2]/ul/li[4]/a/div[1]/text()')
print(end)      
print(type(end[0]))
xml_str = str(end[0])
print(xml_str.replace(',',''))

xpath中的语法导致最终获取对象不同

一个是标签节点,一个是节点下的文本 ,导致最终结果的数据类型不同

相关推荐
孟健10 小时前
Karpathy 用 200 行纯 Python 从零实现 GPT:代码逐行解析
python
码路飞12 小时前
写了个 AI 聊天页面,被 5 种流式格式折腾了一整天 😭
javascript·python
曲幽14 小时前
FastAPI压力测试实战:Locust模拟真实用户并发及优化建议
python·fastapi·web·locust·asyncio·test·uvicorn·workers
敏编程19 小时前
一天一个Python库:jsonschema - JSON 数据验证利器
python
前端付豪19 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
databook19 小时前
ManimCE v0.20.1 发布:LaTeX 渲染修复与动画稳定性提升
python·动效
花酒锄作田1 天前
使用 pkgutil 实现动态插件系统
python
前端付豪1 天前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
曲幽1 天前
FastAPI实战:打造本地文生图接口,ollama+diffusers让AI绘画更听话
python·fastapi·web·cors·diffusers·lcm·ollama·dreamshaper8·txt2img
老赵全栈实战2 天前
Pydantic配置管理最佳实践(一)
python