7.29爬虫修复

1、加密算法sha、与时间加密。f12前端页面,所有文件中查询到指定字段。

2、加锁维护token或jwt之类的凭证,双if嵌套判断

3、熟悉公司整体项目框架,前端、nginx服务器,后端服务器

4、scrapy的爬虫过滤,注意重复url在srcapy.Request方法里面会过滤掉,重复字段的请求要允许过滤。

5、pymysql的异步修改、插入会产生链接问题,推荐使用DButl的连接池进行配置pymysql。

相关推荐
sugar椰子皮39 分钟前
【node源码-6】async-hook c层修改以及测试
爬虫
Data_agent6 小时前
OOPBUY模式淘宝1688代购系统搭建指南
开发语言·爬虫·python
乘凉~6 小时前
【Linux作业】Limux下的python多线程爬虫程序设计
linux·爬虫·python
洋生巅峰11 小时前
股票爬虫实战解析
爬虫·python·mysql
不叫猫先生11 小时前
Puppeteer + BrightData代理集成实战,解锁高效Web数据采集新范式
爬虫·数据采集·puppeteer
小白学大数据11 小时前
构建新闻数据爬虫:自动化提取与数据清洗技巧
运维·爬虫·python·自动化
sugar椰子皮1 天前
【node源码-5】Async Hooks使用
爬虫
傻啦嘿哟1 天前
Python爬虫进阶:反爬机制突破与数据存储实战指南
开发语言·爬虫·python
sugar椰子皮1 天前
【node源码-2】Node.js 启动流程
爬虫·node.js
不会飞的鲨鱼1 天前
抖音验证码滑动轨迹原理(续)
javascript·爬虫·python