技术栈
爬虫
深蓝电商API
8 小时前
爬虫
·
python
服务器部署爬虫:Supervisor 进程守护
在服务器长期运行爬虫时,常会遇到程序意外崩溃、断连退出、后台挂起失效等问题,直接用 nohup 或 screen 管理不够规范、不够稳定。Supervisor 是 Linux 下轻量、可靠的进程守护工具,专门用来托管爬虫、服务、脚本等后台程序,实现自动重启、日志管理、统一管控。
竹林818
9 小时前
爬虫
·
python
·
自动化运维
用Python requests搞定Cookie登录,我绕过了三个大坑才成功
上个月接了个内部需求,要每天定时从公司用的一个项目管理平台(类似Jira)拉取任务数据,生成报表。这个平台没有提供官方API,只能通过网页端操作。手动操作太耗时,我就想写个Python脚本自动化。
英英_
11 小时前
爬虫
·
selenium
·
测试工具
Selenium 模拟浏览器教程:搞定动态页面爬虫
python安装教程:https://blog.csdn.net/2501_91538706/article/details/148033554
weixin_44040169
16 小时前
爬虫
·
python
·
机器人
网络机器人(爬虫)+Xpath+网页F12+爬取电影Top100
(学习自黑马程序员)黑马程序员Python+AI零基础入门到大神全套视频课程网络爬虫(网络机器人),自动浏览并抓取网络数据的程序或脚本。 robots协议(爬虫协议) 哪些页面可以抓取,哪些页面不能抓取
深蓝电商API
16 小时前
爬虫
·
单元测试
·
集成测试
爬虫测试:单元测试与集成测试实践
在爬虫开发中,稳定性、可维护性、容错性是核心指标。随着爬取目标站点结构变化、反爬策略升级、业务逻辑日趋复杂,没有测试的爬虫往往是 “一次性脚本”,上线即埋坑。单元测试与集成测试,是保障爬虫长期可靠运行的关键工程实践。
新缸中之脑
1 天前
爬虫
反爬虫大师的网络爬取API
网页爬取曾经需要整个设置。启动Playwright或Puppeteer,管理浏览器实例,处理分页,应对JavaScript渲染页面,编写重试逻辑,并自己解析HTML。在爬取单个页面之前要花费半天的工作。
进击的雷神
1 天前
爬虫
·
python
地址语义解析、多语言国家匹配、动态重试机制、混合内容提取——德国FAKUMA展爬虫四大技术难关攻克纪实
在德国展会网站采集中,FAKUMA展(德国腓特烈港塑料展览会)作为欧洲顶尖的塑料工业展会,其网站具有典型的德国技术风格:精确的HTML结构、严格的请求限制、以及多语言混杂的地址信息。本文以FAKUMA展参展商信息采集项目为例,深入剖析在开发过程中遇到的四大技术难题,以及我们如何通过创新的技术方案逐一攻克这些难关。
white.tie
1 天前
爬虫
·
ai
scrapling AI爬虫 初体验
AI时代,传统的爬虫需要根据网站的改变,需要变成xpath的匹配方式,或者说风控,scrapling比较吸引人的是可以根据学习网站的结构,网页更新时重新定位元素,据说还能绕过WAF,JA3指纹等
进击的雷神
1 天前
爬虫
·
python
邮箱编码解码、国际电话验证、主办方过滤、多页面深度爬取——柬埔寨塑料展爬虫四大技术难关攻克纪实
在东南亚展会网站采集中,柬埔寨国际塑料橡胶展(CIMIF Cambodia)的网站具有典型的区域特性:多语言混杂、联系方式编码保护、国际电话格式多样、主办方信息干扰。本文以CIMIF Cambodia展参展商信息采集项目为例,深入剖析在开发过程中遇到的四大技术难题,以及我们如何通过创新的技术方案逐一攻克这些难关。
深蓝电商API
1 天前
爬虫
·
python
多线程 vs 异步 vs 多进程爬虫性能对比
在 Python 爬虫开发中,并发是提升爬取效率的核心手段,而多线程、异步(协程)、多进程是最常用的三种并发方案。很多开发者会混淆三者的原理、性能与适用场景,本文从底层逻辑、资源开销、实战性能、选型建议四个维度,做一次清晰对比,帮你在爬虫项目中精准选型。
进击的雷神
1 天前
爬虫
·
python
相对路径拼接、TEL前缀清洗、多链接过滤、毫秒级延迟控制——日本东京塑料展爬虫四大技术难关攻克纪实
在日本展会网站采集中,IPF Japan展(日本东京塑料展)的网站具有典型的日式技术风格:简洁的HTML结构、精确的CSS选择器、以及严格的访问控制。本文以IPF Japan展参展商信息采集项目为例,深入剖析在开发过程中遇到的四大技术难题,以及我们如何通过创新的技术方案逐一攻克这些难关。
`Jay
2 天前
爬虫
·
python
·
学习
·
golang
·
代理模式
高并发数据采集:隧道代理池架构设计与实现
本教程仅限于学术探讨,也没有专门针对某个网站而编写,禁止用于非法用途、商业活动、恶意滥用技术等,否则后果自负。观看则同意此约定。如有侵权,请告知删除,谢谢!
小圣贤君
2 天前
前端
·
人工智能
·
爬虫
·
electron
·
ai写作
·
小说下载
·
网文下载
在 Electron 里造一个「搜书 + 下载」:从 so-novel 到 51mazi 的爬虫实践
一句话推荐:在 Electron + Vue 3 里实现「搜书名 → 选书源 → 一键下载到本地」的完整方案,含多书源配置、Cheerio 解析、GBK 编码、正文去广告与 IPC 踩坑实录,附源码与 GitHub 链接。
深蓝电商API
2 天前
爬虫
爬虫代码重构:从脚本到可维护项目
很多开发者的爬虫生涯,都是从一段几十行的脚本开始的。能跑就行、逻辑直出、一把梭哈,快速拿到数据是第一目标。但随着需求迭代:网站改版、反爬升级、字段增多、多站点复用、定时调度、日志排查…… 原本顺滑的小脚本,很快会变成难读、难改、难扩展的 “屎山”。
ipooipoo1188
2 天前
爬虫
·
网络协议
·
tcp/ip
kookeey 动态住宅 IP 使用场景详解:跨境电商、爬虫、社媒养号一站式解决方案
在跨境业务开发、海外数据采集、海外社交媒体运营、多账号管理等场景中,IP 的纯净度、稳定性与真实性,直接影响业务成功率与账号安全。kookeey 作为业内成熟的动态住宅 IP 服务商,被广泛应用于爬虫、跨境电商、海外社媒等领域。本文从实际业务出发,详细介绍 kookeey 动态住宅 IP 的核心优势与适用场景。
ruanyongjing
2 天前
爬虫
·
python
·
信息可视化
Python中的简单爬虫
实际上Web服务器和浏览器的通讯流程过程并不是一次性完成的, 这里html代码中也会有访问服务器的代码, 比如请求图片资源。 那像0.jpg、1.jpg、2.jpg、3.jpg、4.jpg、5.jpg、6.jpg这些访问来自哪里呢 答:它们来自index.html
lzp0791
2 天前
开发语言
·
爬虫
·
python
python爬虫——爬取全年天气数据并做可视化分析
目标内容界面:查找方法:find(): 查找第一个匹配到的节点。find_all(): 查找所有匹配到的节点,并返回一个列表。
喵手
2 天前
爬虫
·
python
·
爬虫实战
·
濒危物种
·
零基础python爬虫教学
·
wwf
·
濒危物种保护动态追踪
Python爬虫实战:用代码守护地球,追踪WWF濒危物种保护动态!
㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久免费看,持续更新中,保底1000+(篇)硬核实战内容。
喵手
2 天前
爬虫
·
python
·
爬虫实战
·
pinterest
·
零基础python爬虫教学
·
采集pinterest热门趋势
·
热门趋势预测
Python爬虫实战:自动化抓取 Pinterest 热门趋势与创意!
㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久免费看,持续更新中,保底1000+(篇)硬核实战内容。
怪侠_岭南一只猿
2 天前
css
·
爬虫
·
python
·
html
爬虫阶段一实战练习题二:爬取当当网图书列表
抓取的当当图书列表数据示例:调试后的爬虫代码爬取的JSON数据存储到文件中 总结与下一步建议 通过本次实战,已经掌握了爬虫的基本流程:分析URL → 构造请求 → 解析HTML → 清洗数据 → 存储结果。同时,还实践了分页处理、异常处理、数据清洗等进阶技巧。这些技能可以轻松迁移到其他网站的爬取中。