python网络爬虫

一、网络爬虫的介绍

1、网络爬虫库

网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬虫网页主要是为了获取网页中的关键信息。python语言中提供了多个具有爬虫功能的库

1)urllib库

是python自带的标准库,不用下载。含有大量爬虫功能,但其代码编写比较复制

2)requests库

是python的第三方库,需要下载。由于requests库是在urllib库的基础上建立的,它包含urllib库的功能,所以使用此库会更简洁

3)scrapy库

是python的第三方库,需要下载,是适用于专业应用程序开发的网络爬虫库

4)selenium库

是python的第三方库,需要下载,可用于驱动计算机中的浏览器执行相关命令,无须用户手动操作

本篇主要介绍requests库和selenium库

2、robots.txt

不是所有的网站都允许被爬取,在大部分网站的根目录中存在一个robot.txt文件,用于声明此网站中禁止访问的url和可以访问的url。在这里就不详细介绍了,想要了解里面内容可以去网上查找

二、获取网页资源

requests库具有获取网页内容和向网页中提交信息的功能

1、get()函数

在requests库中获取HTML网内容的方法是使用get()函数形式如下:

get(url,params=None,**kwargs)

参数url;表示需要获取的HTML网址

参数params:表示可选参数,以字典的形式发送信息,当需要向网页中提交查询信息时使用

参数**kwargs:表示请求采用的可选参数

2、get()搜索信息

在网页搜索bilibili中,输入关键字python,可以看到下图的信息

在搜索结果网页中可以看到当前页面的网址为https://www.bilibili.com/search?keyword=python,其中https://www.bilibili.com/为官网主页,search表示搜索,keyword表示搜索的关键字,这里值为python表示需要搜索的关键词是'python'

在requests库中可以充分利用以上方法实现获取网页中的资源

3、get()添加信息

get()函数中第二个参数params会以字典的形式在url后自动添加信息,需要提取将params定义为字典

三、项目案例:实现处理获取的网页信息

项目描述

使用get()函数获取HTML网页源代码的目的在于让获取的信息为用户所用

项目任务

"新书快递-人邮教育社区"网页中上架了新书,现需要使用requests库爬取当前网页中所有新书的书名,如图,一共12本

相关推荐
lkbhua莱克瓦2411 小时前
反射3-反射获取构造方法
java·开发语言·反射
wanghowie11 小时前
02.04.01 Java Stream API 进阶指南:从底层实现到性能优化
java·开发语言·性能优化
superman超哥12 小时前
仓颉元编程进阶:编译期计算能力的原理与深度实践
开发语言·后端·仓颉编程语言·仓颉·仓颉语言·仓颉元编程·编译器计算能力
站大爷IP12 小时前
Python实现Excel数据自动化处理:从繁琐操作到智能流程的蜕变
python
BBB努力学习程序设计12 小时前
Python 进阶知识点精讲:上下文管理器(Context Manager)的原理与实战
python·pycharm
清水白石00812 小时前
《深入 super() 的世界:MRO 与 C3 线性化算法的全景解析与实战指南》
python
大厂技术总监下海12 小时前
Python 开发者的“新引擎”:Rust 编写的解释器,性能与安全兼得
python·开源
这周也會开心12 小时前
Map集合的比较
java·开发语言·jvm
挖矿大亨12 小时前
C++中的赋值运算符重载
开发语言·c++·算法
superman超哥12 小时前
Rust 基本数据类型:类型安全的底层探索
开发语言·rust·rust基本数据类型·rust底层探索·类型安全