【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

来两个炸鸡腿2025-06-22 12:11

系列文章目录

提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加

例如：第一章 Python 机器学习入门之pandas的使用

文章目录

系列文章目录
前言
[2.1 概述](#2.1 概述)
[2.2 re 解析](#2.2 re 解析)
[2.3 bs4 解析](#2.3 bs4 解析)
[2.4 xpath 解析](#2.4 xpath 解析)
总结

前言

2.1 概述

紧接上文，通常我们只需要整个网页的一部分内容，这就涉及到了数据提取。
常见有 3 种方式：

re
bs4
xpath

2.2 re 解析

2.3 bs4 解析

首先掌握 html 标签语法

2.4 xpath 解析

xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
用法：
1. 将要解析的html内容构造出 etree 对象。
2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

尝试使用3种解析方法解析网页源代码。

上一篇：基于腾讯云GPU服务器的深度学习训练技术指南

下一篇：无人机上，利用 ucos2 实现 stm32 采集陀螺仪数据

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 102026 年 AI 大模型 & AI 编程工具实战全总结