【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加

例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • [2.1 概述](#2.1 概述)
  • [2.2 re 解析](#2.2 re 解析)
  • [2.3 bs4 解析](#2.3 bs4 解析)
  • [2.4 xpath 解析](#2.4 xpath 解析)
  • 总结

前言


2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

  • 尝试使用3种解析方法解析网页源代码。
相关推荐
知青春之宝贵12 分钟前
BEV感知-课程学习详细记录(自动驾驶之心课程)
学习
aiguangyuan1 小时前
Python元组常用操作方法
python·后端开发
闯闯桑1 小时前
Pyspark中的int
大数据·python·spark·pandas
berryyan1 小时前
Windows 环境下通过 WSL2 成功集成 Claude Code 与 PyCharm 的完整指南
人工智能·python
精灵vector1 小时前
Agent的记忆详细实现机制
python·langchain·llm
蚊子不吸吸2 小时前
在Docker、KVM、K8S常见主要命令以及在Centos7.9中部署的关键步骤学习备存
linux·学习·docker·kubernetes·centos·k8s·kvm
小王学python2 小时前
Python语法、注释之数据类型
后端·python
安全系统学习2 小时前
【网络安全】文件上传型XSS攻击解析
开发语言·python·算法·安全·web安全
谷雪_6582 小时前
学习华为 ensp 的学习心得体会
网络·学习·华为·网络工程·ensp
懒惰的bit3 小时前
STM32F103C8T6 学习笔记摘要(三)
笔记·stm32·学习