python爬虫学习代码1

百度翻译:利用爬虫技术模拟人工查询英文单词,将查到的信息保存到本地

python 复制代码
import requests
import json
# 1.指定url
post_url = 'https://fanyi.baidu.com/sug'
# 2.UA标识
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
# 3.post请求参数处理
'''
    在这个上下文中,"payload"指的是在中HTTP请求的主体部分,包含了需要传输的数据。它可以是表单数据、JSON数据、文件等等。
'''
word = input('请输入中文字词:')
data = {
    'kw': word
}
# 4.发起请求
response = requests.post(url=post_url, headers=headers, data=data)
# 5.获取响应数据
result_obi = response.json()
print(result_obi)
# 6.持久化数据
filename = word+'.json'
f = open('D:/Pythonstudy/python爬虫/百度翻译/'+filename, 'w', encoding='utf-8')
json.dump(result_obi, f, ensure_ascii=False)
print("success")
f.close()

网页采集器:输入关键字,获取目标网页关于关键字的信息

python 复制代码
import requests

# UA标识
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}

# 请求头
url = 'https://sogou.com/web?'

# url携带的参数
parms = {
    'query': '贾康康'
}
response = requests.get(url, params=parms, headers=headers)
page_text = response.text
with open('sogou.html', 'w', encoding='utf-8') as f:
    f.write(page_text)

肯德基:post请求的应用,输入目标地点,获取目标地点的相关门店信息

python 复制代码
import requests

url = 'https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
data = {
    'cname': '',
    'pid': '',
    'keyword': '兰州',
    'pageIndex': '1',
    'pageSize': '20'
}
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
response = requests.post(url=url, headers=headers, data=data)
result = response.json()
print(result)

豆瓣电影排行榜信息爬取:通过指定请求头的参数,来获取想要的排行榜的区间

python 复制代码
import json

import requests

# 1.指定url
douban_url = 'https://movie.douban.com/j/chart/top_list'
# 2.指定参数
data = {
    'type': '25',
    'interval_id': '100:90',
    'action': '',
    'start': '1',
    'limit': '20'
}
# 3.UA标识
headers = {
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
}
# 4.请求访问
'''如果上面的地址栏变化证明不是ajax请求'''
response = requests.get(url=douban_url,headers=headers,params=data)
# 5.获取响应参数
result = response.json()
print(result)
# 6.持久化数据
f = open('D:/Pythonstudy/python爬虫/豆瓣电影/douban.json','w',encoding='utf-8')
json.dump(result,f,ensure_ascii=False)
f.close()
相关推荐
Yan-英杰16 分钟前
百度搜索和文心智能体接入DeepSeek满血版——AI搜索的新纪元
图像处理·人工智能·python·深度学习·deepseek
weixin_307779131 小时前
Azure上基于OpenAI GPT-4模型验证行政区域数据的设计方案
数据仓库·python·云计算·aws
玩电脑的辣条哥2 小时前
Python如何播放本地音乐并在web页面播放
开发语言·前端·python
CSDN_PBB3 小时前
[STM32 - 野火] - - - 固件库学习笔记 - - - 十五.设置FLASH的读写保护及解除
笔记·stm32·学习
多想和从前一样5 小时前
Django 创建表时 “__str__ ”方法的使用
后端·python·django
小喵要摸鱼6 小时前
【Pytorch 库】自定义数据集相关的类
pytorch·python
bdawn6 小时前
深度集成DeepSeek大模型:WebSocket流式聊天实现
python·websocket·openai·api·实时聊天·deepseek大模型·流式输出
Jackson@ML6 小时前
Python数据可视化简介
开发语言·python·数据可视化
mosquito_lover16 小时前
怎么把pyqt界面做的像web一样漂亮
前端·python·pyqt
鸡啄米的时光机7 小时前
vscode的一些实用操作
vscode·学习