案例:xpath实例+功能

素材:test.html 代码如下:

html 复制代码
<!DOCTYPE html>
<html lang="en">
    <head>
        <meta charset="UTF-8" />
        <title>Title</title>
    </head>
    <body>
        <span>我爱你</span>
        <ul>
            <li><a href="http://www.baidu.com">百度</a></li>
            <li><a href="http://www.google.com">谷歌</a></li>
            <li><a href="http://www.sogou.com">搜狗</a></li>
        </ul>
        <ol>
            <li><a href="feiji">飞机</a></li>
            <li><a href="dapao">大炮</a></li>
            <li><a href="huoche">火车</a></li>
        </ol>
        <div class="job">李嘉诚</div>
        <div class="common">胡辣汤</div>
    </body>
</html>

爬虫代码:常用

python 复制代码
from lxml import etree
# from lxml import html
# etree = html.etree
# # 需要加载准备解析的数据
f= open('test.html',mode='r',encoding='utf-8')
pageSource=f.read()
# print(pageSource)
# 加载数据,返回element对象
et=etree.HTML(pageSource)
# print(et)
# xpath语法
# result = et.xpath('/html') #/html表示根节点
# result = et.xpath('/html/body') #表达式中的/表示一层html节点
# result = et.xpath('/html/body/span/text()') #text()表示提取标签中的文本信息
# result = et.xpath('/html/body/*/li/a/text()') # * 表示任意的,通配符,
# result = et.xpath('/html/body/*/li/a/@href') # @ 表示属性
# result = et.xpath('//li/a/@href') # // 表示任意位置
# result = et.xpath('//div[@class="job"]/text()') # [@xx='xx'] 表示属性上的限定
# print(result)

# 带循环的
result = et.xpath("/html/body/ul/li")
for item in result:
    href = item.xpath("./a/@href")[0] # ./ 表示当前这个元素
    text = item.xpath("./a/text()")[0]
    print(text,href)

运行结果如下:

百度 http://www.baidu.com

谷歌 http://www.google.com

搜狗 http://www.sogou.com

相关推荐
兵慌码乱15 小时前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot16 小时前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海21 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱1 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽1 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码1 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱2 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
金銀銅鐵2 天前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
FreakStudio2 天前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机
用户0332126663672 天前
使用 Python 从零创建 Word 文档
python