python-爬虫-爬取中华人民共和国农业农村部网站公开的农产品批发价格中的蔬菜价格周数据

中华人民共和国农业农村部 http://www.moa.gov.cn/


分析

  • 抓包,发现getFrequencyData里面有我们想要的数据

  • 查看请求的提交参数

  • 使用postman接口测试工具测试验证getFrequencyData里的url,发现测试返回的数据列表是空的

  • 继续分析,发现需要先访问updateFrequencyConditions,再访问getFrequencyData

爬取

python 复制代码
import requests
import uuid
import time
  • 爬取第一页的数据
python 复制代码
url1 = 'http://zdscxx.moa.gov.cn:8080/nyb/updateFrequencyConditions'
url2 = 'http://zdscxx.moa.gov.cn:8080/nyb/getFrequencyData'
data = {
    'page':'1',
    'rows':'20',
    'type':'周度数据',
    'subType':'农产品批发价格',
    'level':'0',
    'time':'["2019-37","2023-38"]',
    'product':'蔬菜'
}
headers = {
    'Cookie':'JSESSIONID=9EDB9C447A01905C7893BDE4C220CF65; yfx_c_g_u_id_10002896=_ck23091319002016340778405571397; yfx_f_l_v_t_10002896=f_t_1694602820630__r_t_1694602820630__v_t_1694602820630__r_c_0; _trs_uv=lmhmrkth_299_3qsk; wdcid=5dbb601a9ccf2804; wdses=369f04c5d15e94ad; _va_ref=%5B%22%22%2C%22%22%2C1694602920%2C%22http%3A%2F%2Fzdscxx.moa.gov.cn%3A8080%2F%22%5D; _va_ses=*; _va_id=34f0e583bc02483c.1694602920.1.1694602960.1694602920.; wdlast=1694603152',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76',
    'Host':'zdscxx.moa.gov.cn:8080',
    'Origin':'http://zdscxx.moa.gov.cn:8080',
    'Referer':'http://zdscxx.moa.gov.cn:8080/nyb/pc/frequency.jsp',
    'X-Requested-With':'XMLHttpRequest'
}


s = requests.session()	# <requests.sessions.Session at 0x24b202c27f0>
r1 = s.post(url1,data=data,headers=headers)		# <Response [200]>
r2 = s.post(url2,data=data,headers=headers)		# <Response [200]>
content = r2.json()		# 得到json数据
data_list = content['result']['pageInfo']['table']
for item in data_list:
    v_data = {}
    v_data['时间'] = item['time']
    v_data['品类'] = item['product']
    v_data['指标'] = item['item']
    v_data['地区'] = item['area']
    v_data['单位'] = item['unit']
    v_data['数值'] = item['value']
    print(v_data)
  • 爬取所有页面的数据,只需要修改data里面的page
python 复制代码
for page in range(1,11):  	# 一共10页
    url1 = 'http://zdscxx.moa.gov.cn:8080/nyb/updateFrequencyConditions'
    url2 = 'http://zdscxx.moa.gov.cn:8080/nyb/getFrequencyData'
    data = {
        'page':page,
        'rows':'20',
        'type':'周度数据',
        'subType':'农产品批发价格',
        'level':'0',
        'time':'["2019-37","2023-38"]',
        'product':'蔬菜'
    }
    headers = {
        'Cookie':'JSESSIONID=9EDB9C447A01905C7893BDE4C220CF65; yfx_c_g_u_id_10002896=_ck23091319002016340778405571397; yfx_f_l_v_t_10002896=f_t_1694602820630__r_t_1694602820630__v_t_1694602820630__r_c_0; _trs_uv=lmhmrkth_299_3qsk; wdcid=5dbb601a9ccf2804; wdses=369f04c5d15e94ad; _va_ref=%5B%22%22%2C%22%22%2C1694602920%2C%22http%3A%2F%2Fzdscxx.moa.gov.cn%3A8080%2F%22%5D; _va_ses=*; _va_id=34f0e583bc02483c.1694602920.1.1694602960.1694602920.; wdlast=1694603152',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76',
        'Host':'zdscxx.moa.gov.cn:8080',
        'Origin':'http://zdscxx.moa.gov.cn:8080',
        'Referer':'http://zdscxx.moa.gov.cn:8080/nyb/pc/frequency.jsp',
        'X-Requested-With':'XMLHttpRequest'
    }


    s = requests.session()	# <requests.sessions.Session at 0x24b202c27f0>
    r1 = s.post(url1,data=data,headers=headers)	# <Response [200]>
    r2 = s.post(url2,data=data,headers=headers)	# <Response [200]>
    content = r2.json()		# 得到json数据
    data_list = content['result']['pageInfo']['table']
    for item in data_list:
        v_data = {}
        v_data['时间'] = item['time']
        v_data['品类'] = item['product']
        v_data['指标'] = item['item']
        v_data['地区'] = item['area']
        v_data['单位'] = item['unit']
        v_data['数值'] = item['value']
        print(v_data)
    time.sleep(5)
相关推荐
copyer_xyf2 分钟前
FastAPI 项目骨架搭建
前端·后端·python
十正3 分钟前
aiohttp.TCPConnector 连接池原理详解
网络·python·tcp·aiohttp
LoserChaser7 分钟前
Flask 文件上传服务器 - 知识点总结
服务器·python·flask
cd988809 分钟前
2026年,哪家电销机器人定制更灵活?
python
二十七剑10 分钟前
LangGraph 源码深度解析:_branch.py 条件分支底层实现原理
python
KaMeidebaby17 分钟前
卡梅德生物技术快报|噬菌体展示文库构建全流程解析 | 大豆球蛋白纳米抗体筛选实践
人工智能·python·tcp/ip·算法·机器学习
傻啦嘿哟20 分钟前
为什么Python没有块级作用域?
开发语言·python
CC数学建模25 分钟前
2026年第十六届APMCM 亚太地区大学生数学建模竞赛(中文赛项)赛题B题:高性能芯片热管理系统的优化问题完整思路、代码、模型、文章,全网首发高质量分享!
python·算法·数学建模
Maydaycxc27 分钟前
Python 实现 RPA + AI 自动化:大模型 OCR + 网页操作完整源码实战
人工智能·python·opencv·selenium·自动化·ocr·rpa
stephon_10030 分钟前
从零设计 Agent 上下文压缩:三级流水线与动态阈值,治好 context too long(附开源实现)
人工智能·python