python爬虫之爬虫入门

python 复制代码
import requests
r=requests.get("http://www.baidu.com")
print(r.status_code)#用status_code来确定页面状态是否正常
type(r)
r.headers

requests库入门

  1. status_code可以用来检验网页状态是否正常
  2. type(r)返回r的类型
  3. r.headers返回该页面头部信

运行结果如下:

返回的头部信息:

requests对象属性

|---------------------|------------------------------|
| 属性 | 说明 |
| r.status_code | HTTP请求返回状态,200表示连接成功,404表示失败 |
| r.text | HTTP响应内容的字符串形式,即url对应的页面内容 |
| r.encoding | 从HTTPheader中猜测的响应内容编码方式 |
| r.apparent_encoding | 从内容中分析出的内容编码方式 |
| r.content | HTTP响应内容的二进制形式 |

r.encoding和r.appatren_encoding的区别

r.encoding是从HTTP头部信息中的charset中获取的,当header中不存在charset时,则认为编码为"ISO-8859-1"

r.apparent_encoding则是从网页内容中分析出的编码形式

所以当我们利用r.text查看网页内容时,可看到返回是乱码的

此时利用r.apparent_encoding获取页面内容编码后将内容方式赋值给encoding后再次查看页面内容时则能正确解读后;所以当使用encoding不能正确解码内容时,我们就使用apparent_encoding。

requests库代码框架

python 复制代码
import requests

def getHTMLText(url):
    try:
        r.requests.get(url,timeout=30)
        r.raise_for_status#如果状态不是200,则会引发HTTPError
        r.encoding=r.apparent_encoding#使得解码正常
        return r.text
    except:
        return"产生错误"
if __name__=="__main__":
    url="http//:www.baidu.com"
    print(getHTMLText(url))
相关推荐
liu****1 分钟前
1.模拟算法
开发语言·c++·算法·1024程序员节
数据村的古老师5 分钟前
Python数据分析实战:基于25年黄金价格数据的特征提取与算法应用【数据集可下载】
开发语言·python·数据分析
孔明兴汉36 分钟前
第一章-第三节-Java开发环境配置
java·开发语言
小王不爱笑1321 小时前
Java 核心知识点查漏补缺(一)
java·开发语言·python
空空kkk1 小时前
Java——类和对象
java·开发语言
闲人编程2 小时前
自动化文件管理:分类、重命名和备份
python·microsoft·分类·自动化·备份·重命名·自动化文件分类
沐知全栈开发3 小时前
Python3 集合
开发语言
Jonathan Star3 小时前
用Python轻松提取视频音频并去除静音片段
开发语言·python·音视频
Evand J3 小时前
【自适应粒子滤波MATLAB例程】Sage Husa自适应粒子滤波,用于克服初始Q和R不准确的问题,一维非线性滤波。附下载链接
开发语言·matlab·卡尔曼滤波·自适应滤波·非线性
麦麦大数据3 小时前
D030知识图谱科研文献论文推荐系统vue+django+Neo4j的知识图谱|论文本文相似度推荐|协同过滤
vue.js·爬虫·django·知识图谱·科研·论文文献·相似度推荐