Python 爬虫的学习 day01 ，爬虫的基本知识， requests 和 charde模块， get函数的使用

1.Python 爬虫

1.1什么是网络爬虫

网络爬虫，又称为网页蜘蛛，网络机器人，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

1.2 网络爬虫的特点

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成，传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

1.3 网络爬虫的种类

1.3.1 通用网络爬虫

通用网络爬虫又称全网爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据，这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。

1.3.2 聚焦网络爬虫

聚焦网络爬虫，又称主题网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫，和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

1.4 爬虫的作用

统计数据

冷数据启动时丰富数据的主要工具，新业务开始时，由于刚起步，所以没有多少数据，此时就需要爬取其他平台的数据来填充我们的业务数据。

爬虫抢票

相信每逢春运或是节假日，大家都用过一些抢票的软件，就为了获得一张机票或者是一张火车票，而这种出行类软件正是运用网络爬虫技术来达到抢票的目的，像抢票软件这样的网络爬虫，会不停地爬取交通出行的售票网站，一旦有票就会点击拍下来，放到自己的网站售卖。

参考文章：网络爬虫是什么意思 (baidu.com)

2. post 请求和 get 请求

2.1 post请求

首先 post请求本质上就是TCP链接；

post请求一般作为发送数据到后台，传递数据，创建数据；

post请求则是将传递的参数放在request body中，不会在地址栏显示，安全性比get请求高，参数没有长度限制；

4.刷新浏览器或者回退的时候， post请求则会重新请求一遍；

post请求不会被缓存，也不好保留在浏览器的历史记录中；

post常见的则是form表单请求；

对参数的数据类型，post没有限制；

2.2 get 请求

首先 get请求本质上就是TCP链接；

get请求也可以传参到后台，但是传递的参数则显示在地址栏，安全性低，且参数的长度也有限制（2048字符）；

get请求刷新浏览器或者回退没有影响；

get请求可以被缓存，也会保留在浏览器的历史记录中；

get请求通常是通过url地址请求；

对参数的数据类型，get只接受ASCII字符

get比post更不安全，因为参数直接暴露在URL上，所以不能用来传递敏感信息。

参考文章：post和get请求的区别是什么-常见问题-PHP中文网

参考文章：get请求和post请求理解 - 小log - 博客园 (cnblogs.com)

3. url 的组成和意义

3.1 url 的概念

Internet上的每一个网页都具有一个唯一的名称标识，通常称之为URL（Uniform Resource Locator, 统一资源定位器） 。它是www的统一资源定位标志，简单地说URL就是web地址，俗称"网址"。

3.2 url 的组成

url 由协议、主机名、域名、端口、路径、以及文件名这六个部分构成，其中端口可以省略。具体语法规则如下：

scheme://host.domain:port/path/filename

协议 :// 主机名 . 域名 / 端口（可以省略）/ 路径 / 文件（注意符号）

3.3 协议有哪些

|--------|---------------------------------------------------|
| 协议 | 使用场景 |
| http | 超文本传输协议。http 协议可以将编码为超文本的数据从一台计算机传送到另一台计算机，不进行加密。 |
| https | 安全超文本传输协议。以安全为目标的 http 通道，安全网页，加密所有信息交换。 |
| ftp | 文件传输协议。格式 FTP:// |
| file | 本机上的文件 file:///，注意后边应是三个斜杠。 |
| gopher | 通过 Gopher 协议访问该资源。 |
| mailto | |

3.4 主机名

主机名的含义是机器本身的名字，域名是方面记录IP地址才做的一种IP映射，主机名用于局域网中；域名用于公网中。

http://blog.sina.com.cn/中，blog是提供博客服务的那台机器的名字，http://sina.com.cn是域名，http://blog.sina.com.cn是主机名。，计算机名+域名才是主机名

3.5 域名

3.5.1 域名可以认为是主机在公网环境中的标识，在在公网下，对应一个唯一的IP，例如我们访问百度的主页：http://www.baidu.com

3.5.2 域名还分级，从后往前级别依次降低，http://sina.com.cn中，cn是顶级域名，表示中国，com是二级域名，表示商业机构（commercial），sina是三级域名，一般用自己的名字。

3.6 端口

一串用来区分不同程序的数字，通过它我们将信息传给指定程序。

或者说是一个个程序占据了一个线程，一个线程占据了一个端口。

3.7 路径

由零或多个"/"符号隔开的字符串，一般用来表示主机上的一个目录或文件地址。

参考文章：(2条消息) URL的概念与组成_url组成_小宝的宝呢的博客-CSDN博客

参考文章：(4条消息) URL的构成_url组成_sunmengting0123的博客-CSDN博客

4. requests 和 chardet 的功能 (模块需要下载)

4.1 requests 模块介绍（这里只是简单介绍，详细的参考文章中看）

1.发送HTTP请求

2.处理响应

3.会话管理

4.文件上传和下载

参考文章：python---requests模块详解_python requests模块_W0ngk的博客-CSDN博客

参考文章：requests库的100种妙用！ (baidu.com)

4.2 chardet 模块介绍（这里只是简单介绍，详细的参考文章中看）

chardet 支持检测中文、日文、韩文等多种语言和字符串编码的识别

参考文章：[转]python 模块 chardet下载及介绍 - 道高一尺 - 博客园 (cnblogs.com)

参考文章：【python】chardet函数用法_微雨停了的博客-CSDN博客

5. requests 和 charde 模块函数的使用

5.1 requests 模块的 get(url, params， headers) 函数介绍

参数url ：是一个网路地址，目的连接对应服务器。

参数params ：向网站传递信息。（例如是：为了查询信息而传递的参数）（我的理解）

参数 headers ： headers 请求头信息，是为了我们的代码访问更像正常的网站访问。

5.2 url 参数

5.2.1 怎么寻找 url

答：打开一个页面直接复制它的地址

为什么只有这一节，因为后面是传递的参数（params）。

5.3 params 参数

5.3.1 怎么寻找 params参数

答：打开一个页面观看地址

5.3.2 想了解更多的 params参数符号的意义

参考文章：百度/谷歌搜索结果中URL路径中的各参数详解_url后面参数wd是什么_爱上小飞鱼的博客-CSDN博客

5.4 headers 参数

5.4.1 怎么找到这个参数

第一步：打开页面（右键--》检查）或者（按下F12）

结果图片：

第二步：点击网络再点击all 或者全部（没有反应就点击旁边不是控制界面的地方就行了）

结果图片：

第三步：点击数据

结果图片：

第四步, 把数据转换为字典数据模式
复制代码
  html_headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.183"
        }  #获取这个网站的 请求头文件

5.5 样例代码

复制代码

import requests  # http 请求函数的库
import chardet   #chardet  支持检测中文、日文、韩文等多种语言  和  字符串编码 函数库
url = 'https://www.baidu.com/s?'

html = requests.get(url)
#print(html.text.encode('utf-8')) #打印源代码
if html.status_code == 200 :
    print(html.url,end='') #输出网址
    print("第一个 数据访问成功")
    html_params = {"wd":"周杰伦"}  # get函数   params 参数  这个参数是用来 向这个网站来传递 数据
    html_headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.183"
        }  #获取这个网站的 请求头文件
    html1 = requests.get(url,params = html_params,headers = html_headers)  #params 使用传递参数（比如传输 ，账号密码）， headers 传递头信息，是为了我们的代码访问更像 正常的网站访问
    if html1.status_code == 200:
        print(html.url,end='')
        print("第二个 数据访问成功")
        html1.encoding = 'utf-8'
        print(html1.text)
    else:
        past
else: 
    print("数据访问失败")