【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加

例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • [2.1 概述](#2.1 概述)
  • [2.2 re 解析](#2.2 re 解析)
  • [2.3 bs4 解析](#2.3 bs4 解析)
  • [2.4 xpath 解析](#2.4 xpath 解析)
  • 总结

前言


2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

  • 尝试使用3种解析方法解析网页源代码。
相关推荐
qunaa0101几秒前
YOLOv26家具物品检测实战:基于Python和OpenCV实现家具识别系统
python·opencv·yolo
肥硕之虎2 分钟前
渗透高级课个人学习分享
学习
2601_949720266 分钟前
flutter_for_openharmony手语学习app实战+学习进度实现
javascript·学习·flutter
夕阳之后的黑夜11 分钟前
Python脚本:为PDF批量添加水印
开发语言·python·pdf
2401_8414956413 分钟前
【LeetCode刷题】LRU缓存
数据结构·python·算法·leetcode·缓存·lru缓存·查找
2401_8414956414 分钟前
【数据挖掘】Apriori算法
python·算法·数据挖掘·数据集·关联规则挖掘·关联规则·频繁项集挖掘
棒棒的皮皮22 分钟前
【OpenCV】Python图像处理之查找并绘制轮廓
图像处理·python·opencv·计算机视觉
楼田莉子23 分钟前
Linux进程间通信——System V系列
linux·服务器·c++·学习·信息与通信
无名修道院25 分钟前
AI大模型应用开发-用 MySQL 存储简单数据,用 Python 操作数据库
数据库·python·mysql·ai大模型应用开发
321.。26 分钟前
从 0 到 1 实现 Linux 下的线程安全阻塞队列:基于 RAII 与条件变量
linux·开发语言·c++·学习·中间件