案例:xpath实例+功能

素材:test.html 代码如下:

html 复制代码
<!DOCTYPE html>
<html lang="en">
    <head>
        <meta charset="UTF-8" />
        <title>Title</title>
    </head>
    <body>
        <span>我爱你</span>
        <ul>
            <li><a href="http://www.baidu.com">百度</a></li>
            <li><a href="http://www.google.com">谷歌</a></li>
            <li><a href="http://www.sogou.com">搜狗</a></li>
        </ul>
        <ol>
            <li><a href="feiji">飞机</a></li>
            <li><a href="dapao">大炮</a></li>
            <li><a href="huoche">火车</a></li>
        </ol>
        <div class="job">李嘉诚</div>
        <div class="common">胡辣汤</div>
    </body>
</html>

爬虫代码:常用

python 复制代码
from lxml import etree
# from lxml import html
# etree = html.etree
# # 需要加载准备解析的数据
f= open('test.html',mode='r',encoding='utf-8')
pageSource=f.read()
# print(pageSource)
# 加载数据,返回element对象
et=etree.HTML(pageSource)
# print(et)
# xpath语法
# result = et.xpath('/html') #/html表示根节点
# result = et.xpath('/html/body') #表达式中的/表示一层html节点
# result = et.xpath('/html/body/span/text()') #text()表示提取标签中的文本信息
# result = et.xpath('/html/body/*/li/a/text()') # * 表示任意的,通配符,
# result = et.xpath('/html/body/*/li/a/@href') # @ 表示属性
# result = et.xpath('//li/a/@href') # // 表示任意位置
# result = et.xpath('//div[@class="job"]/text()') # [@xx='xx'] 表示属性上的限定
# print(result)

# 带循环的
result = et.xpath("/html/body/ul/li")
for item in result:
    href = item.xpath("./a/@href")[0] # ./ 表示当前这个元素
    text = item.xpath("./a/text()")[0]
    print(text,href)

运行结果如下:

百度 http://www.baidu.com

谷歌 http://www.google.com

搜狗 http://www.sogou.com

相关推荐
张3蜂11 小时前
java springboot2.0 api ;.netcore8 api ;python GunicornAPI ,哪种更强?请从多个维度,对比分析
java·python·.netcore
u01092727111 小时前
高级爬虫技巧:处理JavaScript渲染(Selenium)
jvm·数据库·python
七夜zippoe11 小时前
Plotly + Dash:构建交互式数据仪表盘的艺术与实战
python·信息可视化·架构·dash·回到函数
£漫步 云端彡11 小时前
Golang学习历程【第十二篇 错误处理(error)】
开发语言·学习·golang
市场部需要一个软件开发岗位11 小时前
一个无人机平台+算法监督平台的离线部署指南
java·python·算法·bash·无人机·持续部署
Cinema KI11 小时前
C++11(中):可变参数模板将成为重中之重
开发语言·c++
凯子坚持 c11 小时前
C++基于微服务脚手架的视频点播系统---客户端(2)
开发语言·c++·微服务
Vivienne_ChenW11 小时前
Spring 事件驱动用法总结
java·开发语言·spring boot·spring
喵手11 小时前
Python爬虫实战:房产数据采集实战 - 链家二手房&安居客租房多页爬虫完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·房产数据采集·链家二手房/安居客房源采集·采集结果sqlite导出
Beginner x_u11 小时前
JavaScript 中浅拷贝与深拷贝的差异与实现方式整理
开发语言·javascript·浅拷贝·深拷贝