【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加

例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • [2.1 概述](#2.1 概述)
  • [2.2 re 解析](#2.2 re 解析)
  • [2.3 bs4 解析](#2.3 bs4 解析)
  • [2.4 xpath 解析](#2.4 xpath 解析)
  • 总结

前言


2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

  • 尝试使用3种解析方法解析网页源代码。
相关推荐
8Qi87 分钟前
Win11系统安装Anaconda环境极简教程
人工智能·python·conda
喜欢吃豆24 分钟前
深入企业内部的MCP知识(四):FastMCP装饰器与类方法:正确结合面向对象与MCP组件的实践指南
人工智能·python·大模型·mcp
CarmenHu1 小时前
pytorch常用API
人工智能·pytorch·python
zlbbme_1 小时前
Android Studio学习笔记:为应用添加文本和图片
笔记·学习
魔力之心1 小时前
TensorFlow2 study notes[1]
人工智能·python·tensorflow
许白掰2 小时前
Linux入门篇学习——Linux 编写第一个自己的命令,make 工具和 makefile 文件
linux·运维·服务器·学习
猎嘤一号3 小时前
Windows11桌面解锁守护脚本
开发语言·python·opencv
蓝婷儿4 小时前
Python 数据建模与分析项目实战预备 Day 2 - 数据构建与字段解析(模拟简历结构化数据)
开发语言·python·机器学习
李白洗一夜4 小时前
(新手友好)MySQL学习笔记(12):触发器,视图,三范式
笔记·学习·mysql
青衫客364 小时前
浅谈 Python 中的 yield——yield的返回值与send()的关系
开发语言·python