二、爬虫-爬取肯德基在北京的店铺地址

1、算法框架解释

针对这个案例,现在对爬虫的基础使用做总结如下:

1、算法框架

(1)设定传入参数

~url:

当前整个页面的url:当前页面的网址

当前页面某个局部的url:打开检查

~data:需要爬取数据的关键字,即搜索内容

~param:需要获取哪些(类型)的数据,即数据类型

~headers:UA伪装

(2)得到get/post请求响应

根据"检查"结果进行判断:

get请求:response=requests.get(url=**,data=**,param=**,headers=**)

post请求:response=requests.post(url=**,data=**,param=**,headers=**)

(3)将得到的请求响应json化数据

此处以request.get/post请求数据为dict为例:

dict_obj=response.json() #在这里,你得到的其实是一个python对象,也就是python的字典

(4)持久化存储

~得到存储地址和修改权限

fp=open("目录",'w',encoding="UTF-8)

~将python对象编码成Json字符串>>格式转化>>python(dict)------>json

json.dump(返回的json数据>>dict_obj,fp=存储地址>>fp,ensure_ascii=False)

~结束

2、代码解析

python 复制代码
import requests
import json

"""

"""
if __name__ == "__main__":
    print("开始爬取")
    # (1)
    post_url = 'https://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    post_data = {
        'kw': '上海'
    }
    post_param = {
        "cname": "",
        "pid": "",
        "keyword": "上海",
        "pageIndex": "1",
        "pageSize": "10"
    }
    post_header = {
        "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/119.0.0.0 Mobile Safari/537.36"
    }
    # (2)
    response = requests.post(url=post_url, data=post_data, params=post_param, headers=post_header)
    # (3)
    dict_obj = response.json()
    # print(type(dict_obj))
    # (4)
    fp = open('./html/KenDeJi.json', 'w', encoding='UTF-8')
    json.dump(dict_obj, fp=fp, ensure_ascii=False)
    print("over")
相关推荐
兵慌码乱8 小时前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot9 小时前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海14 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱16 小时前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
Caco_D20 小时前
一行代码抓遍全网 20 个热榜!Aneiang.Pa 4.0 发布 — 极简 .NET 爬虫库
爬虫·.net
曲幽21 小时前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码21 小时前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱1 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
金銀銅鐵1 天前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
FreakStudio2 天前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机