【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加

例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • [2.1 概述](#2.1 概述)
  • [2.2 re 解析](#2.2 re 解析)
  • [2.3 bs4 解析](#2.3 bs4 解析)
  • [2.4 xpath 解析](#2.4 xpath 解析)
  • 总结

前言


2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

总结

  • 尝试使用3种解析方法解析网页源代码。
相关推荐
Kusunoki_D1 小时前
PyTorch 环境配置
人工智能·pytorch·python
helloyaren2 小时前
Docker Desktop里搭建RabbitMq 4.1.3集群的保姆级教程
学习·rabbitmq·集群
知秋丶2 小时前
大模型应用发展与Agent前沿技术趋势(下)
人工智能·python·ai agent
艾莉丝努力练剑3 小时前
【C语言16天强化训练】从基础入门到进阶:Day 6
c语言·数据结构·学习·算法
HenryLin4 小时前
美股量化分析系统 - 模块调用流程文档
python
跟橙姐学代码4 小时前
一文读懂 Python 的 JSON 模块:从零到高手的进阶之路
前端·python
Insist7534 小时前
k8s----学习站点搭建
学习
躺不平的小刘4 小时前
从YOLOv5到RKNN:零冲突转换YOLOv5模型至RK3588 NPU全指南
linux·python·嵌入式硬件·yolo·conda·pyqt·pip
月盈缺4 小时前
学习嵌入式第二十三天——数据结构——栈
数据结构·学习
mysla4 小时前
嵌入式学习day34-网络-tcp/udp
服务器·网络·学习