【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加

例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • [2.1 概述](#2.1 概述)
  • [2.2 re 解析](#2.2 re 解析)
  • [2.3 bs4 解析](#2.3 bs4 解析)
  • [2.4 xpath 解析](#2.4 xpath 解析)
  • 总结

前言


2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

  • 尝试使用3种解析方法解析网页源代码。
相关推荐
颜颜yan_1 小时前
UU远程——让工作、学习、娱乐跨设备无缝衔接,“远程”更像“身边”
学习·娱乐·远程工作
飞翔的佩奇2 小时前
【完整源码+数据集+部署教程】【天线&水】舰船战舰检测与分类图像分割系统源码&数据集全套:改进yolo11-repvit
前端·python·yolo·计算机视觉·数据集·yolo11·舰船战舰检测与分类图像分割系统
木头左3 小时前
最大回撤约束下ETF多因子动态止盈参数校准方案
python
YJlio3 小时前
Process Monitor 学习笔记(5.24):工具栏参考与高效快捷键指南
笔记·学习·php
deng-c-f3 小时前
Linux C/C++ 学习日记(30):协程(一):同步和异步、协程的简要介绍、用户态CPU调度的实现
学习·协程·同步/异步
汤姆yu3 小时前
2026版基于python的协同过滤音乐推荐系统
开发语言·python
汤姆yu3 小时前
基于python的电子商务管理系统
开发语言·python
may_一一3 小时前
pycharm\python 安装下载
ide·python·pycharm
后台开发者Ethan4 小时前
FastAPI之 Python的类型提示
python·fastapi·ai编程
hello kitty w4 小时前
Python学习(11) ----- Python的泛型
windows·python·学习