数据分析和可视化:Py爬虫-XPath解析章节要点总结

重要知识点

XPath 概述：XPath 是一门可以在 XML 文件中查找信息的语言，也可用于 HTML 文件。它功能强大，提供简洁明了的路径表达式和多个函数，用于字符串、数值、时间比较等。1999 年成为 W3C 标准，常用于爬虫中抓取网页信息。
XPath 解析操作：在 Python 中，常用 lxml 模块进行 XPath 解析，该模块底层用 C 语言编写，解析效率高。需通过"pip install lxml"命令安装。
- 解析 HTML：有 parse（）方法用于解析本地 HTML 文件；HTML（）方法用于解析字符串类型的 HTML 代码和服务器返回的 HTML 代码。
- 获取所有节点：使用"//*"获取 HTML 代码中的所有节点。
- 获取子节点：用"/"获取直接子节点，"//"获取子孙节点。
- 获取父节点：使用".."获取一个节点的父节点。
- 获取文本：用 text（）方法获取 HTML 代码中的文本。
- 属性匹配：使用" $@$ "实现节点属性的匹配，包括单属性、多属性匹配以及属性多值匹配。
案例：爬取豆瓣电影 Top250 中的电影信息
- 分析请求地址：豆瓣电影 Top250 首页有 10 页内容，每页 25 个电影信息。每页的 URL 地址规律为间隔"25"。
- 分析信息位置：通过浏览器"开发者工具"查看电影名称、导演、主演、电影评分等信息对应的 HTML 代码位置。
- 爬虫代码实现：使用 requests 模块发送网络请求，lxml 模块中的 XPath 解析器提取电影的相关信息。

相应重要代码

复制代码

# 导入 etree 子模块
from lxml import etree

# 8.2.1 解析本地的 HTML 文件
parser = etree.HTMLParser()
html = etree.parse("demo.html", parser=parser)
html_txt = etree.tostring(html, encoding="utf-8")
print(html_txt.decode('utf-8'))

# 8.2.2 解析字符串类型的 HTML 代码
html_str = """
<html>
    <head>
        <title>标题文档</title>
    </head>
    <body>
        <img src="./demo_files/logo1.png" />
        <br />
        hello 明日科技
    </body>
</html>
"""
html = etree.HTML(html_str)
html_txt = etree.tostring(html, encoding="utf-8")
print(html_txt.decode('utf-8'))

# 8.2.3 解析服务器返回的 HTML 代码（示例为发送网络请求后解析）
import requests
from requests.auth import HTTPBasicAuth
url = 'http://example.com'
auth = HTTPBasicAuth('admin', 'admin')
response = requests.get(url=url, auth=auth)
if response.status_code == 200:
    html = etree.HTML(response.text)
    html_txt = etree.tostring(html, encoding="utf-8")
    print(html_txt.decode('utf-8'))

# 8.2.4 获取所有节点
html_str = """
<div class="level_one on">
    <ul>
        <li><a href="/index/index/view/id/1.html" title="什么是 Java" class="on">什么是 Java</a></li>
        <li><a href="javascript:" onclick="login(0)" title="Java 的版本">Java 的版本</a></li>
        <li><a href="javascript:" onclick="login(0)" title="Java API 文档">Java API 文档</a></li>
        <li><a href="javascript:" onclick="login(0)" title="JDK 的下载">JDK 的下载</a></li>
        <li><a href="javascript:" onclick="login(0)" title="JDK 的安装">JDK 的安装</a></li>
        <li><a href="javascript:" onclick="login(0)" title="配置 JDK">配置 JDK</a></li>
    </ul>
</div>
"""
html = etree.HTML(html_str)
node_all = html.xpath("//*")
print("数据类型：", type(node_all))
print("数据长度：", len(node_all))
print("数据内容：", node_all)
print("节点名称：", [i.tag for i in node_all])

# 8.2.5 获取子节点（直接子节点和子孙节点）
html_str = """
<div class="level_one on">
    <ul>
        <li>
            <a href="/index/index/view/id/1.html" title="什么是 Java" class="on">什么是 Java</a>
            <a>Java</a>
        </li>
        <li><a href="javascript:" onclick="login(0)" title="Java 的版本">Java 的版本</a></li>
        <li>
            <a href="javascript:" onclick="login(0)" title="Java API 文档">
                <a>a 节点中的 a 节点</a>
            </a>
        </li>
    </ul>
</div>
"""
html = etree.HTML(html_str)
a_all = html.xpath("//li/a")
print("所有子节点 a:", a_all)
print("获取指定 a 节点：", a_all[1])
a_txt = etree.tostring(a_all[1], encoding="utf-8")
print("获取指定节点 HTML 代码：", a_txt.decode('utf-8'))

# 获取子孙节点
a_all = html.xpath("//ul//a")
print("所有子节点 a:", a_all)
print("获取指定 a 节点：", a_all[4])
a_txt = etree.tostring(a_all[4], encoding="utf-8")
print("获取指定节点 HTML 代码：", a_txt.decode('utf-8'))

# 8.2.6 获取父节点
html_str = """
<div class="level_one on">
    <ul>
        <li><a href="/index/index/view/id/1.html" title="什么是 Java" class="on">什么是 Java</a></li>
        <li><a href="javascript:" onclick="login(0)" title="Java 的版本">Java 的版本</a></li>
    </ul>
</div>
"""
html = etree.HTML(html_str)
a_all_parent = html.xpath("//a/..")
print("所有 a 的父节点：", a_all_parent)
print("获取指定 a 的父节点：", a_all_parent[0])
a_txt = etree.tostring(a_all_parent[0], encoding="utf-8")
print("获取指定节点 HTML 代码：\n", a_txt.decode('utf-8'))

# 8.2.7 获取文本
html_str = """
<div class="level_one on">
    <ul>
        <li><a href="/index/index/view/id/1.html" title="什么是 Java" class="on">什么是 Java</a></li>
        <li><a href="javascript:" onclick="login(0)" title="Java 的版本">Java 的版本</a></li>
    </ul>
</div>
"""
html = etree.HTML(html_str)
a_text = html.xpath("//a/text()")
print("所有 a 节点中文本信息：", a_text)

# 8.2.8 属性匹配
html_str = """
<div class="video scroll">
    <div class="level">什么是 Java</div>
    <div class="level">Java 的版本</div>
</div>
"""
html = etree.HTML(html_str)
div_one = html.xpath("//div[@class='level']/text()")
print(div_one)

# 多属性匹配
html_str = """
<div class="video_scroll">
    <div class="level" id="one">什么是 Java</div>
    <div class="level">Java 的版本</div>
</div>
"""
html = etree.HTML(html_str)
div_all = html.xpath("//div[@class='level' and @id='one']/text()")
print(div_all)

# 8.2.9 获取属性
html_str = """
<div class="video scroll">
    <li class="level" id="one">什么是 Java</li>
</div>
"""
html = etree.HTML(html_str)
li_class = html.xpath("//div/li/@class")
li_id = html.xpath("//div/li/@id")
print("class 属性值：", li_class)
print("id 属性值：", li_id)

# 8.2.10 按序获取属性值
html_str = """
<div class="video_scroll">
    <li><a href="javascript:" onclick="login(0)" title="Java API 文档">Java API 文档</a></li>
    <li><a href="javascript:" onclick="login(0)" title="JDK 的下载">JDK 的下载</a></li>
    <li><a href="javascript:" onclick="login(0)" title="JDK 的安装">JDK 的安装</a></li>
    <li><a href="javascript:" onclick="login(0)" title="配置 JDK">配置 JDK</a></li>
</div>
"""
html = etree.HTML(html_str)
li_all = html.xpath("//div/li/a/@title")
print("所有属性值：", li_all)
li_first = html.xpath("//div/li[1]/a/@title")
print("第一个属性值：", li_first)
li_four = html.xpath("//div/li[4]/a/@title")
print("第四个属性值：", li_four)

# 使用节点轴获取节点内容（示例为获取 li[2] 所有祖先节点）
html_str = """
<div class="video_scroll">
    <li><a href="javascript:" onclick="login(0)" title="Java API 文档">Java API 文档</a></li>
    <li><a href="javascript:" onclick="login(0)" title="JDK 的下载">JDK 的下载</a></li>
    <li><a href="javascript:" onclick="login(0)" title="JDK 的安装">JDK 的安装</a></li>
</div>
"""
html = etree.HTML(html_str)
ancestors = html.xpath("//li[2]/ancestor::*")
print("li[2] 所有祖先节点名称：", [i.tag for i in ancestors])

# 爬取豆瓣电影 Top250 中的电影信息（部分代码）
from lxml import etree
import time
import random
import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; wow64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}

def processing(strs):
    s = ""
    for n in strs:
        s = s + "".join(n.split())
    return s

def get_movie_info(url):
    response = requests.get(url, headers=header)
    html = etree.HTML(response.text)
    div_all = html.xpath("//div[@class='info']")
    for div in div_all:
        names = div.xpath("./div[@class='hd']/a//span/text()")
        name = processing(names)
        infos = div.xpath("./div[@class='bd']/p/text()")
        info = processing(infos)
        score = div.xpath("./div[@class='bd']/div/span[2]/text()")
        evaluation = div.xpath("./div[@class='bd']/div/span[4]/text()")
        summary = div.xpath("./div[@class='bd']/p[@class='quote']/span/text()")
        print("电影名称：", name)
        print("导演与演员：", info)
        print("电影评分：", score)
        print("评价人数：", evaluation)
        print("电影总结：", summary)
        print("- -分隔线- -")

if __name__ == "__main__":
    for i in range(0, 250, 25):
        url = "https://movie.douban.com/top250?start={page}&filter=".format(page=i)
        get_movie_info(url)
        time.sleep(random.randint(1, 3))