数据分析之数据收集

互联网自动化采集脚本------爬虫
1.什么是自动化采集的脚本 - 网络爬虫 网络蜘蛛 网络机器人

自动采集网站上我们需要的数据。

2.如何批量采集数据

爬虫:请求某一个网站的数据

(1)确定目标:请求哪一个网址?

如下是:东方财富网,实战-大A股5000+股票实时批量抓取

行情中心:国内快捷全面的股票、基金、期货、美股、港股、外汇、黄金、债券行情系统_东方财富网 (eastmoney.com)

url = '网址'

F12或者Fn+F12打开开发者工具 - Network(网络) - 刷新网页

放大镜里面搜索股票关键字 - 点击出现的数据 - headers里面有网址

(2)伪装脚本, 伪装成一个浏览器!

headers={'user-agent':'浏览器标识'}
注意: 浏览器标识就在刚才找到的网址的下面。

(3)请求网址的数据

res = requests.get(url, headers)

模块使用方法:数据=模块.功能(参数)

requests 功能get 给定网址和身份 返回给我们数据

res.text res.content res.status_code

其中:403 拒绝 404 网址不存在 500网址崩溃或者错误

实例代码:

python 复制代码
import requests   # 请求模块
import pandas     # 表格模块
import re         # 筛选模块 -- 正则表达式! python自带!
totaldata = []
for pn in range(1, 282):
    # ==============获取数据==================
    url = f'https://64.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112408356224630673301_1715256225019&pn={pn}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&wbp2u=|0|0|0|web&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1715256225020'
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'}
    res = requests.get(url, headers)
    print(res.text)

    # ================筛选数据===============
    codelist = re.findall('"f12":"(.*?)","f13"', res.text)
    namelist = re.findall('"f14":"(.*?)","f15"', res.text)
    pricelist = re.findall('"f2":(.*?),"f3"', res.text)

    # =============重新组合数据================
    for i in range(0, len(codelist)):
        datalist = [codelist[i], namelist[i], pricelist[i]]
        print(datalist)
        totaldata.append(datalist)  # 把新得到的数据汇总到总数据里面!

运行如下:

相关推荐
ClonBrowser17 分钟前
Facebook的用户隐私保护:从争议到革新
数据分析·facebook·隐私保护
音程31 分钟前
一次使用threading.Thread来实现Pytorch多个模型并发运行的失败案例
人工智能·pytorch·python
凯子坚持 c1 小时前
【机器学习】--- 决策树与随机森林
python·决策树·随机森林·机器学习
x-cmd1 小时前
x-cmd pkg | bat: cat 命令现代化替代品,终端用户必备工具
运维·python·rust·终端·命令行·bat·cat
计算机编程-吉哥1 小时前
计算机毕业设计 基于Python的校园个人闲置物品换购平台 闲置物品交易平台 Python+Django+Vue 前后端分离 附源码 讲解 文档
python·django·毕业设计·毕业论文·计算机毕业设计·计算机毕业设计选题·闲置物品交易
爱技术的小伙子1 小时前
【30天玩转python】使用第三方库(如 NumPy、Pandas)
python·numpy·pandas
繁依Fanyi1 小时前
828华为云征文|华为Flexus云服务器打造《我的世界》游戏服务器
java·服务器·开发语言·python·算法·华为·华为云
那一抹阳光多灿烂1 小时前
代码随想录训练营 Day62打卡 图论part11 Floyd 算法 A * 算法
数据结构·python·算法·图论
子午1 小时前
【垃圾识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目选题+TensorFlow+图像识别
图像处理·人工智能·python·深度学习
OreoCC2 小时前
第J4周:ResNet与DenseNet结合--DPN(pytorch版)
人工智能·pytorch·python