Python爬虫(九)_非结构化数据与结构化数据

爬虫的一个重要步骤就是页面解析与数据提取。

页面解析与数据提取

实际上爬虫一共就四个主要步骤:

  1. 定(要知道你准备在哪个范围或者网站去搜索)
  2. 爬(将所有的网站的内容全部爬下来)
  3. 取(分析数据,去掉对我们没用处的数据)
  4. 存(按照我们想要的方式存储和使用)
  5. 表(可以根据数据的类型通过一些图标展示)

以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。

数据,可分为非结构化数据结构化数据

  • 非结构化数据:先有数据,再有结构
  • 结构化数据:先有结构,再有数据
  • 不同类型的数据,我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

  • 正则表达式Python正则表达式

HTML文件

  • 正则表达式
  • XPath
  • CSS选择器

结构化的数据处理

JSON文件

  • JSON Path
  • 转化为Python类型进行操作(json类)

XML文件

  • 转化为Python类型(xmltodict)
  • XPath
  • CSS选择器
  • 正则表达式
相关推荐
weelinking29 分钟前
【2026】08_Claude与版本控制:Git协作技巧
数据库·人工智能·git·python·数据挖掘·交互·cloudera
踩着两条虫5 小时前
「AI + 低代码」的可视化设计器
开发语言·前端·低代码·设计模式·架构
JoneBB6 小时前
ABAP Webservice连接
运维·开发语言·数据库·学习
scan7246 小时前
智能体多个工具调用
python
2401_867623986 小时前
CSS Flex布局中如何设置子元素间距_掌握gap属性的现代用法
jvm·数据库·python
即使再小的船也能远航6 小时前
【Python】安装
开发语言·python
weixin_421725266 小时前
Linux 编程语言全解析:C、C++、Python、Go、Rust 谁更强?
linux·python·go·c·编程语言
Irissgwe6 小时前
类与对象(三)
开发语言·c++·类和对象·友元
没有梦想的咸鱼185-1037-16636 小时前
AI-Python机器学习、深度学习核心技术与前沿应用及OpenClaw、Hermes自动化编程
人工智能·python·深度学习·机器学习·chatgpt·数据挖掘·数据分析
雪度娃娃7 小时前
转向现代C++——优先选用nullptr而不是0和NULL
开发语言·c++