【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加

例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • [2.1 概述](#2.1 概述)
  • [2.2 re 解析](#2.2 re 解析)
  • [2.3 bs4 解析](#2.3 bs4 解析)
  • [2.4 xpath 解析](#2.4 xpath 解析)
  • 总结

前言


2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

  • 尝试使用3种解析方法解析网页源代码。
相关推荐
三次拒绝王俊凯1 天前
在ideal中访问页面时出现 HTTP 404 - Not Found
java·学习·tomcat
姝孟1 天前
笔记(C++篇)—— Day 12(类的默认成员函数)
c++·笔记·学习
SunnyDays10111 天前
Python 自动化导出PDF表格:List、Dictionary、Pandas DataFrame和数据库实例演示
python·将列表导出为pdf·将字典导出为pdf·数据库导出为pdf·pdf表格单元格合并·dataframe导出为pdf
a1111111111ss1 天前
yoloVV11 SPPF篇 | 2024最新AIFI模块改进特征金字塔网络
python·深度学习·目标检测
Lxinccode1 天前
python(44) : docker构建支持消费rocketmq的客户端
python·docker·rocketmq·importerror·not found·dynamic library·pyrocketmq
ideaout技术团队1 天前
leetcode学习笔记2:多数元素(摩尔投票算法)
学习·算法·leetcode
绵羊20231 天前
ImmuCellAI 免疫浸润分析
linux·python
十铭忘1 天前
Bug——PaddleX人脸识别报错:Process finished with exit code -1073741819 (0xC0000005)
学习·bug
less is more_09301 天前
风力发电机输出功率模型综述
笔记·学习·数学建模
MediaTea1 天前
Python IDE:Spyder
开发语言·ide·python