爬虫基础一(持续更新)

爬虫概念:

通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程

分类:

1,通用爬虫:抓取一整张页面数据

2,聚焦爬虫:抓取页面中的局部内容

3,增量式爬虫:只会抓取网站中最新更新出来的数据

反爬协议robots.txt协议

http协议:

服务器与客户端进行数据交互的一种形式

User-Agent:请求载体的身份标识

Connection:请求完毕是断开还是保持连接

Content-Type: 服务器响应回客户端的数据类型

https协议:证书认证加密,安全的超文本传输协议

1,requests模块:

作用:模拟浏览器发请求

流程:1,指定url 2,发起请求 3,获取响应数据 4,持久化存储

1.1爬取搜狗首页:

复制代码
import requests
if __name__ == '__main__':
    url='https://www.sogou.com/'
    response=requests.get(url=url)
    page_text=response.text#返回字符串形式的响应数据
    print(page_text)
    with open('./sougou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束!')

1.2网页采集器

User-Agent:请求载体的身份标识

UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器

复制代码
import requests
if __name__ == '__main__':
    #UA伪装:将对应的UA封装到一个字典里
    headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2669.400 QQBrowser/9.6.10990.400'
    }
    url='https://www.sogou.com/sie?hdq=AQxRG-0000&'
    #处理URL参数分装到字典里
    kw=input('enter a word:')
    param={
        'query':kw
    }
#对指定URL发起的请求对应的url是携带参数的请求过程中处理了参数
    response=requests.get(url=url,params=param,headers=headers)
    page_text=response.text#返回字符串形式的响应数据
    fileName=kw+'.html'

    with open(fileName,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName,'保存成功!!')

相关推荐
yq1982043011561 天前
基于Python爬虫原理的Pinterest视频资源获取技术解析与工具实践
爬虫·python·django·音视频
喵手1 天前
Python爬虫实战:自动化质量护航 - 构建爬虫数据的“熔断与巡检”规则引擎实战!
爬虫·python·自动化·爬虫实战·零基础python爬虫教学·自动化质量护航·数据熔断
嚯嚯歪1 天前
攻克腾讯 TCaptcha 滑块验证码:纯 HTTP 协议逆向实战
爬虫·python·逆向·验证码识别
喵手2 天前
Python爬虫实战:构建一个高健壮性的图书数据采集器!
爬虫·python·爬虫实战·零基础python爬虫教学·构建图书数据·采集图书数据·图书数据采集
喵手2 天前
Python爬虫实战:监控型爬虫实战 - 从结构检测到智能告警的完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·csv导出·监控型爬虫实战·从结构哦检测到智能告警
深蓝电商API2 天前
爬虫中 Cookie 池维护与自动刷新
爬虫·python
喵手2 天前
Python爬虫实战:开放数据多格式入仓 - 构建统一数据管道(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·csv导出·开放数据多格式·统一数据管道
流烟默2 天前
Python爬虫之下载豆瓣电影图片到本地
爬虫·python
喵手2 天前
Python爬虫实战:构建“时光机”——网站数据增量监控与差异分析系统!
爬虫·python·爬虫实战·差异分析·零基础python爬虫教学·网站数据增量·网站数据增量监控系统
深蓝电商API2 天前
爬虫数据导出 Excel:openpyxl 高级用法
爬虫·python·openpyxl