【酱浦菌-爬虫项目】爬取百度文库文档

  1. 首先,定义了一个变量`url`,指向百度文库的搜索接口 'https://wenku.baidu.com/gsearch/rec/pcviewdocrec'。

  2. 然后,设置了请求参数`data`,包括文档ID(`docId`)和查询关键词(`query`)。

  3. 定义了HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。

  4. 使用`requests.get()`方法,发送一个GET请求到指定的URL,并将响应内容保存在`response`变量中。

  5. 从响应的JSON数据中提取了相关文档的信息,包括图片的URL。

  6. 遍历每个相关文档:

  • 获取图片的URL。

  • 使用`requests.get()`方法获取图片的内容。

  • 将图片内容写入到以数字命名的文件中(保存在`img`文件夹下)。

  • 打印相关文档的其他信息。

  1. 最后,完成了对相关文档图片的下载操作。

完整代码如下:

python 复制代码
import requests
from pprint import pprint
# 确定请求链接
url = 'https://wenku.baidu.com/gsearch/rec/pcviewdocrec'
# 请求参数
data ={
'docId':'d6b88ed8d0f34693daef5ef7ba0d4a7302766c99',
'query':'趣味答题 题目及答案',
'recPositions':''
}
headers = {
    'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'
}
response = requests.get(url = url, params = data, headers = headers)
num = 1
#pprint(response.json()['data']['relateDoc'])
for index in response.json()['data']['relateDoc']:
    pic = index['pic']
    img_content = requests.get(url =pic, headers= headers).content
    with open('img\\' + str(num) + '.jpg', mode='wb') as f:
        f.write(img_content)
    print(index)
    num += 1

运行效果如下:

相关推荐
闲人编程9 小时前
Python的抽象基类(ABC):定义接口契约的艺术
开发语言·python·接口·抽象类·基类·abc·codecapsule
vx_dmxq2119 小时前
【微信小程序学习交流平台】(免费领源码+演示录像)|可做计算机毕设Java、Python、PHP、小程序APP、C#、爬虫大数据、单片机、文案
java·spring boot·python·mysql·微信小程序·小程序·idea
无垠的广袤10 小时前
【工业树莓派 CM0 NANO 单板计算机】本地部署 EMQX
linux·python·嵌入式硬件·物联网·树莓派·emqx·工业物联网
艾莉丝努力练剑11 小时前
【Python基础:语法第一课】Python 基础语法详解:变量、类型、动态特性与运算符实战,构建完整的编程基础认知体系
大数据·人工智能·爬虫·python·pycharm·编辑器
gCode Teacher 格码致知11 小时前
Python基础教学:如何拼接字符串?-由Deepseek产生
python
还债大湿兄11 小时前
阿里通义千问调用图像大模型生成轮动漫风格 python调用
开发语言·前端·python
blank@l11 小时前
python测开小工具--日志查询分析工具
python·python接口自动化测试基础·python测试开发·日志查询分析·日志分析统计查询·软件测试工具·argparse模块
hu_nil11 小时前
LLMOps-第十三周
python·vllm
空影星11 小时前
轻量日记神器RedNotebook,高效记录每一天
python·数据挖掘·数据分析·音视频
搬砖ing换来金砖12 小时前
Python入门-Task02
开发语言·python