【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加

例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • [2.1 概述](#2.1 概述)
  • [2.2 re 解析](#2.2 re 解析)
  • [2.3 bs4 解析](#2.3 bs4 解析)
  • [2.4 xpath 解析](#2.4 xpath 解析)
  • 总结

前言


2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

  • 尝试使用3种解析方法解析网页源代码。
相关推荐
hmbbcsm5 分钟前
练习python题目小记(七)
开发语言·python
qq_3561969522 分钟前
day27pipeline管道@浙大疏锦行
python
richxu2025100122 分钟前
嵌入式学习之路>单片机核心原理>(3)定时器
单片机·嵌入式硬件·学习
噔噔噔噔@25 分钟前
第一章、基础理论——第一节、软件测试概述
python·单元测试·压力测试
冷雨夜中漫步26 分钟前
AI入坑之路——(1)搭建本地的Python与Jupyter开发环境
人工智能·python·jupyter
CRUD酱28 分钟前
RabbitMQ是如何确保消息的可靠性的?
java·python·rabbitmq
shenghaide_jiahu28 分钟前
数学分析简明教程——5.5
学习
sivdead34 分钟前
Agent平台消息节点输出设计思路
后端·python·agent
盼哥PyAI实验室35 分钟前
【超详细教程】Python 连接 MySQL 全流程实战
python·mysql·oracle
棒棒的皮皮36 分钟前
【OpenCV】Python图像处理之按位逻辑运算
图像处理·python·opencv·计算机视觉