【爬虫】- 爬虫原理及其入门

爬虫01 - 爬虫原理及其入门

文章目录

一:爬虫原理

学习爬虫之前前置知识需要了解这些:

我的HTTP介绍, 了解如何调用,requests需要

我的html介绍, 了解html结构

我的css介绍,了解选择器部分, 因为要用bs4选择对应位置的内容
所谓爬虫,就是通过模拟浏览器行为向目标网站发送请求(HTTP/HTTPS),解析响应内容并提取所需数据,最终存储到本地或数据库

  1. 请求数据(构造HTTP请求(GET/POST)获取网页内容)
  2. 解析数据(通过正则表达式、XPath或解析库(如BeautifulSoup)提取目标信息)
  3. 存储数据(将结果保存为CSV、Excel或数据库(如MySQL、MongoDB)

1:爬虫的优势‌

  • 丰富的库支持‌:Requests(HTTP请求)、BeautifulSoup/Scrapy(解析)、Selenium(动态渲染)等库简化开发流程。
  • ‌语法简洁高效‌:Python代码可读性强,适合快速实现复杂逻辑。
  • ‌生态成熟‌:社区活跃,反爬解决方案和开源项目资源丰富。

2:爬虫的核心库

shell 复制代码
pip install requests
pip install beautifulsoup4 # 注意这个是4版本的
pip install selenium
pip install scrapy

3:经典举例

举一个简单的top250首页电影的评分和电影名

python 复制代码
import requests
from bs4 import BeautifulSoup

# 1:构建请求,通过request先获取到对应的HTML/XML
url = "https://movie.douban.com/top250"
headers = {"User-Agent": "Mozilla/5.0"}

response = requests.get(url, headers=headers)

# 准备使用bs4进行解析,下面将使用find, find_all进行解析
soup = BeautifulSoup(response.text, "html.parser")

movies = []
# 对于找到的所有的item进行解析
for item in soup.find_all("div", class_="item"):
    title = item.find("span", class_="title").text
    rating = item.find("span", class_="rating_num").text
    movies.append({"title": title, "rating": rating})

for index, movie in enumerate(movies):
    print(f"{index + 1}. {movie['title']} - {movie['rating']}")

4:合规问题

相关推荐
浏览器API调用工程师_Taylor16 小时前
我是如何将手动的日报自动化的☺️☺️☺️
前端·javascript·爬虫
hans汉斯18 小时前
基于机器学习的商业银行信贷风险评估系统构建与实证研究
大数据·人工智能·爬虫·算法·yolo·机器学习·支持向量机
疏狂难除19 小时前
【Tauri2】050——加载html和rust爬虫
开发语言·爬虫·rust·spiderdemo
B站_计算机毕业设计之家1 天前
python电商商品评论数据分析可视化系统 爬虫 数据采集 Flask框架 NLP情感分析 LDA主题分析 Bayes评论分类(源码) ✅
大数据·hadoop·爬虫·python·算法·数据分析·1024程序员节
dont worry about it1 天前
使用亮数据爬虫API零门槛快速爬取Tiktok数据
开发语言·爬虫·python
小白学大数据1 天前
Python爬虫定时任务:自动化抓取豆瓣每日最新短评
爬虫·python·自动化
tang777892 天前
如何利用代理 IP 构建分布式爬虫系统架构?
分布式·爬虫·tcp/ip
Amo Xiang2 天前
JavaScript逆向与爬虫实战——基础篇(css反爬之动态字体实现原理及绕过)
爬虫·python·js逆向·动态字体
电商API_180079052473 天前
微店常用API:获取商品详情接口|关键字搜索商品接口|获取快递费接口-打通商品运营与用户体验的技术桥梁
大数据·服务器·人工智能·爬虫·数据挖掘