【酱浦菌-爬虫项目】爬取百度文库文档

  1. 首先,定义了一个变量`url`,指向百度文库的搜索接口 'https://wenku.baidu.com/gsearch/rec/pcviewdocrec'。

  2. 然后,设置了请求参数`data`,包括文档ID(`docId`)和查询关键词(`query`)。

  3. 定义了HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。

  4. 使用`requests.get()`方法,发送一个GET请求到指定的URL,并将响应内容保存在`response`变量中。

  5. 从响应的JSON数据中提取了相关文档的信息,包括图片的URL。

  6. 遍历每个相关文档:

  • 获取图片的URL。

  • 使用`requests.get()`方法获取图片的内容。

  • 将图片内容写入到以数字命名的文件中(保存在`img`文件夹下)。

  • 打印相关文档的其他信息。

  1. 最后,完成了对相关文档图片的下载操作。

完整代码如下:

python 复制代码
import requests
from pprint import pprint
# 确定请求链接
url = 'https://wenku.baidu.com/gsearch/rec/pcviewdocrec'
# 请求参数
data ={
'docId':'d6b88ed8d0f34693daef5ef7ba0d4a7302766c99',
'query':'趣味答题 题目及答案',
'recPositions':''
}
headers = {
    'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'
}
response = requests.get(url = url, params = data, headers = headers)
num = 1
#pprint(response.json()['data']['relateDoc'])
for index in response.json()['data']['relateDoc']:
    pic = index['pic']
    img_content = requests.get(url =pic, headers= headers).content
    with open('img\\' + str(num) + '.jpg', mode='wb') as f:
        f.write(img_content)
    print(index)
    num += 1

运行效果如下:

相关推荐
njxiejing3 分钟前
Numpy一维、二维、三维数组切片实例
开发语言·python·numpy
lskisme1 小时前
springboot maven导入本地jar包
开发语言·python·pycharm
开心-开心急了1 小时前
pyside6实现win10自动切换主题
开发语言·python·pyqt·pyside
mortimer2 小时前
一键实现人声伴奏分离:基于 `uv`, `FFmpeg` 和 `audio-separator` 的高效解决方案
python·ffmpeg·音视频开发
加油20192 小时前
音视频处理(三):hls协议和m3u8详解和视频下载爬虫实战
爬虫·音视频·hls·m3u8·mpeg-2·mpeg2-ts·电视迷
Sunhen_Qiletian2 小时前
Python 类继承详解:深度学习神经网络架构的构建艺术
python·深度学习·神经网络
程序员大雄学编程3 小时前
用Python来学微积分34-定积分的基本性质及其应用
开发语言·python·数学·微积分
Q_Q5110082853 小时前
python+django/flask的莱元元电商数据分析系统_电商销量预测
spring boot·python·django·flask·node.js·php
林一百二十八3 小时前
Python实现手写数字识别
开发语言·python
Q26433650234 小时前
【有源码】基于Hadoop+Spark的起点小说网大数据可视化分析系统-基于Python大数据生态的网络文学数据挖掘与可视化系统
大数据·hadoop·python·信息可视化·数据分析·spark·毕业设计