02-1解析xpath

我是在edge浏览器中安装的xpath,需要安装的朋友可以参考下面这篇博客最新版edge浏览器中安装xpath插件

一、xpathd的使用

  1. 安装lxml
python 复制代码
pip install lxml ‐i https://pypi.douban.com/simple
  1. 导入lxml.etree
python 复制代码
from lxml import etree
  1. etree.parse() 解析本地文件
python 复制代码
html_tree = etree.parse('XX.html')
  1. etree.HTML() 服务器响应文件
python 复制代码
html_tree = etree.HTML(response.read().decode('utf‐8')
  1. html_tree.xpath(xpath路径)
html 复制代码
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8"/>
    <title>Title</title>
</head>
<body>
    <ul>
        <li id="l1" class="c1">北京</li>
        <li id="l2">上海</li>
        <li id="c3">深圳</li>
        <li id="c4">武汉</li>
    </ul>

<!--    <ul>-->
<!--        <li>大连</li>-->
<!--        <li>锦州</li>-->
<!--        <li>沈阳</li>-->
<!--    </ul>-->
</body>
</html>
python 复制代码
from lxml import etree

# xpath解析
# (1)本地文件                                                etree.parse
# (2)服务器响应的数据  response.read().decode('utf-8') *****   etree.HTML()

# xpath解析本地文件
tree = etree.parse('路径.html')

#tree.xpath('xpath路径')

# 查找ul下面的li
# li_list = tree.xpath('//body/ul/li')


# 查找所有有id的属性的li标签
# text()获取标签中的内容
# li_list = tree.xpath('//ul/li[@id]/text()')

# 找到id为l1的li标签  注意引号的问题
# li_list = tree.xpath('//ul/li[@id="l1"]/text()')

# 查找到id为l1的li标签的class的属性值
# li = tree.xpath('//ul/li[@id="l1"]/@class')

# 查询id中包含l的li标签
# li_list = tree.xpath('//ul/li[contains(@id,"l")]/text()')

# 查询id的值以l开头的li标签
# li_list = tree.xpath('//ul/li[starts-with(@id,"c")]/text()')

#查询id为l1和class为c1的
# li_list = tree.xpath('//ul/li[@id="l1" and @class="c1"]/text()')

li_list = tree.xpath('//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text()')

# 判断列表的长度
print(li_list)
print(len(li_list))
相关推荐
人生の三重奏17 天前
scrapy案例——当当网的爬取一
爬虫·scrapy·xpath
皆过客,揽星河23 天前
Python爬虫之正则表达式于xpath的使用教学及案例
爬虫·python·正则表达式·xpath·网页爬虫·豆瓣电影·照片爬取
worxfr1 个月前
Python Selenium常用语法汇总(包含XPath语法)
开发语言·python·selenium·xpath
NPE~1 个月前
爬虫入门 & Selenium使用
爬虫·python·selenium·测试工具·xpath
OEC小胖胖1 个月前
XPath基础知识点讲解——用于在XML中查找信息的语言
xml·java·javascript·xpath
MAR-Sky2 个月前
python爬虫中json和xml字符串的xPath和jsonpath过滤语法区别对比
xml·爬虫·python·json·xpath
MAR-Sky2 个月前
在python爬虫中xpath方式提取lxml.etree._ElementUnicodeResult转化为字符串str类型
爬虫·python·xpath·数据类型转换
山茶花开时。2 个月前
[Xpath] Xpath基础知识
xpath·数据解析
Shadow℘Coder3 个月前
爬虫实战:数据请求与解析(4种不同方式的数据解析)
爬虫·python·xpath·数据解析·pyquery·beautiful soup
醉公子~4 个月前
批量爬取B站网络视频信息
爬虫·python·xpath·b站