python爬虫学习（1）——初识爬虫

兵马俑学编程2024-05-27 10:54

520那天我向心仪的女孩要微信："女神，能给我你的微信号吗？"

女神：****"爬！！！！"

从那天开始，我就决定要学好爬虫，爬到女神微信号！！！

目录

1、网络爬虫概述

2、网络爬虫的类型：

3、网络爬虫的工作原理：

4、网络爬虫的设计考虑：

5、搭建开发环境

1、网络爬虫概述

网络爬虫（Web Crawler），也称为网页蜘蛛（spider）或机器人（bot），是一种自动浏览互联网的程序。它的主要任务是从一个或多个起始网页开始，递归地访问网页，收集信息，并将其存储在本地数据库中，以供搜索引擎索引或进行其他类型的分析。

2、网络爬虫的类型：

通用爬虫：爬取互联网上广泛的网页，用于构建大型搜索引擎的索引。
聚焦爬虫：专注于特定主题或领域的网页，用于构建特定领域的搜索引擎或数据库。
增量爬虫：定期爬取网页，只更新那些自上次爬取以来发生变化的网页。

3、网络爬虫的工作原理：

选择起始点：爬虫从预定义的URL列表或种子URL开始。
发送请求：爬虫向目标网页发送HTTP请求。
接收响应：服务器响应请求，返回网页内容。
解析内容：爬虫解析网页内容，提取有用的信息，如文本、图片、链接等。
存储数据：将提取的信息存储到数据库中。
发现新链接：分析网页中的链接，将新的URL添加到待爬取的队列中。
重复过程：对新发现的链接重复上述过程。

4、网络爬虫的设计考虑：

爬取策略：如何决定访问哪些网页，常见的策略有广度优先、深度优先等。
重复内容的处理：避免爬取重复内容，节省资源。
用户体验：尊重网站的robots.txt文件，遵守爬取规则，减少对服务器的压力。
数据质量：确保收集的数据准确、完整。
法律和道德问题：遵守相关法律法规，尊重版权和隐私。

5、搭建开发环境

我使用用conda来管理python环境；使用VScode/pycharm取决于你；

我的往期博客；

window下下载Anaconda及python并创建虚拟环境
 在window下下载Anaconda时新建的虚拟环境在C盘解决方案

上一篇：C++STL---string知识汇总

下一篇：docker安装Elasticsearch（ES）详细教程

热门推荐

01GitHub 镜像站点 02AI科技热点日报 | 2026年07月01日 03幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？10几个好用的ip纯净度检测网站