Python爬虫(九)_非结构化数据与结构化数据

python 筱水花2023-08-10 10:26

爬虫的一个重要步骤就是页面解析与数据提取。

页面解析与数据提取

实际上爬虫一共就四个主要步骤：

定（要知道你准备在哪个范围或者网站去搜索）
爬（将所有的网站的内容全部爬下来）
取（分析数据，去掉对我们没用处的数据）
存（按照我们想要的方式存储和使用）
表（可以根据数据的类型通过一些图标展示）

以前学的就是如何从网站去爬数据，而爬下来的数据却没做分析，现在，就开始对数据做一些分析。

数据，可分为非结构化数据和结构化数据

非结构化数据：先有数据，再有结构
结构化数据：先有结构，再有数据
不同类型的数据，我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式Python正则表达式

HTML文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON文件

JSON Path
转化为Python类型进行操作（json类）

XML文件

转化为Python类型（xmltodict）
XPath
CSS选择器
正则表达式

上一篇：SEO搜索引擎优化

下一篇：实践指南-前端性能提升 270% | 京东云技术团队

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 0300 Debian字符界面如何支持中文 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？072026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结