爬虫

嫂子的姐夫3 小时前
爬虫·js逆向·逆向
33-补环境介绍为什么补环境:因为网站会根据浏览器与node的不同设置环境监测,一旦代码中含有环境检测的代码,就会触发报错或者蜜罐返回不出或者错误信息,这时候就要学会补环境才能解决此类问题
ZC跨境爬虫8 小时前
爬虫·python·算法·自动化
Python异步IO详解:原理、应用场景与实战指南(高并发爬虫首选)在Python并发编程领域,异步IO(Async IO)是解决高并发I/O密集型任务的最优方案,尤其在爬虫、接口调用、批量文件处理等场景中,凭借“单进程单线程、无切换开销、高并发支持”的核心优势,成为开发者处理大规模I/O任务的首选。很多开发者在接触异步IO时,容易将其与多进程、多线程混淆,不清楚其底层逻辑和适用场景,导致无法充分发挥其高并发优势。
嫂子的姐夫9 小时前
爬虫·js逆向
35-JS VMP技术介绍js vmp其实就是一个微型解释器,然后传入一串很长的字符串或者指令集映射为原生 JS 逻辑然后进行加密,也是相混淆一样对代码进行保护的作用,他总体代码如下:
嫂子的姐夫11 小时前
爬虫·逆向
32-字体反爬本文需要借助工具:fontcreator,或者在线网站:字体设计在线网站字体反爬是网站常用的前端反爬手段,核心逻辑是用自定义字体文件替代明文文本,爬虫自动化也无法拿到正确的明文数据
有代理ip17 小时前
爬虫
网络爬虫工具核心知识:概念、应用、优化及常见问题解答本文将介绍网络爬虫工具及其基本概念,帮助读者理解如何有效使用这些工具进行数据采集。通过高匿代理IP的使用,读者将了解到如何保护自己的身份信息,以避免在抓取过程中被目标网站识别。此外,文章还将详细阐述建立自己的爬虫系统的步骤,包括选择合适的工具、设置请求频率和使用随机请求头等多个方面。这些内容旨在为读者提供实用参考,使他们能够在实际操作中掌握必要的技能与注意事项,从而优化数据抓取的效果。
拍客圈17 小时前
爬虫
宝塔UA爬虫黑名单宝塔UA爬虫黑名单宝塔waf防火墙 导入即可如果影响采集 可以移除下面的
嫂子的姐夫17 小时前
爬虫·python·逆向
34-自动化补环境和jsdom补环境本文讲解两种非纯手补环境的方法——自动化和jsdom模块我们都知道selenium, DP这种自动化可以实现整个浏览器的模拟,所以模拟时会包含整个浏览器的环境,我们可以通过这种来运行js代码直接产生结果,理论可行开始实践:
cch891817 小时前
开发语言·爬虫·php
PHP爬虫框架大比拼PHP 作为服务器端脚本语言,在爬虫领域有多个成熟的框架,以下是主流框架的对比分析:特点:基于 Symfony 组件,轻量易用,适合基础爬取任务。 核心功能:
ZC跨境爬虫18 小时前
爬虫·python·计算机外设
Playwright模拟鼠标滚轮实战:从原理到百度图片_豆瓣电影爬取在Web自动化与数据爬取场景中,我们经常会遇到需要“滚动页面”才能加载更多内容的情况——比如百度图片的无限滚动加载、豆瓣电影排行榜的底部加载、社交媒体的下拉刷新等。传统的请求式爬取(如requests+BeautifulSoup)往往无法应对这类动态加载页面,因为这类页面的内容是通过JavaScript监听滚动事件后,异步请求数据并渲染的,而非一次性加载完成。
ZC跨境爬虫1 天前
前端·爬虫·python·自动化
极验滑动验证码自动化实战:背景提取、缺口定位与Playwright滑动模拟在爬虫自动化、Web端自动化测试、业务流程自动化等场景中,人机验证是保障系统安全的重要防线,也是自动化流程中最常见的“拦路虎”。极验(Geetest)作为国内领先的行为验证码厂商,其第四代自适应滑动验证码凭借动态防护、行为轨迹校验、环境检测等多重技术,成为众多网站的首选验证方案。
ZC跨境爬虫2 天前
前端·爬虫·python·自动化
极验滑动验证码自动化实战(ddddocr免费方案):本地缺口识别与Playwright滑动模拟在Web自动化、爬虫合规采集、自动化测试等场景中,极验(Geetest)滑动验证码是最常见的人机验证手段之一。其凭借动态图片生成、行为轨迹校验、环境检测等多重防护机制,有效区分人类操作与机器行为,成为保障系统安全的重要防线。
后藤十八里2 天前
笔记·爬虫·python
极验4消消乐验证码逆向笔记本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!
后藤十八里2 天前
笔记·爬虫·python
极验4滑动拼图验证码逆向笔记[!QUOTE] 参考文章 爬虫逆向之极验四滑块(补环境秒杀)_极验四逆向-CSDN博客本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!
ZC跨境爬虫3 天前
爬虫·python·自动化
免费验证码识别:用ddddocr实现Playwright自动化登录在自动化爬虫、自动化登录等场景中,验证码是最常见的“拦路虎”。对于个人开发者、初学者而言,付费解码平台虽精准,但成本较高,而免费的OCR工具中,ddddocr凭借轻量、无需训练、开箱即用的优势,成为处理简单验证码的首选。
ZC跨境爬虫3 天前
前端·爬虫·python·ui
Playwright进阶操作:鼠标拖拽与各类点击实战(含自定义拖拽实例)Playwright作为功能强大的浏览器自动化工具,除了基础的元素定位、坐标截图,其鼠标交互功能更是实现复杂自动化操作的核心。上一节课我们掌握了元素坐标获取与坐标截图的基础用法,本节课将聚焦鼠标交互的核心场景——拖拽操作,结合你自定义开发的拖拽实例网站,详细拆解慢动作拖拽的实现逻辑,同时拓展左键单点、左键双点、右键单点及固定坐标点击功能,帮助大家全面掌握Playwright鼠标交互的用法,为后续复杂自动化测试、网页爬虫交互打下坚实基础。本文结合实战案例,分层讲解操作逻辑、代码实现、注意事项,确保大家能够直
Pocker_Spades_A3 天前
开发语言·爬虫·python
Python快速入门专业版(五十六)——爬虫会话管理:Cookie与Session原理及实战(保持登录状态)在爬虫开发中,保持登录状态是爬取会员内容、个人数据、动态交互页面的核心前提。绝大多数网站通过 Cookie 与 Session 实现用户身份识别与会话保持,若爬虫无法正确处理会话,会频繁出现登录失效、权限不足、页面跳转回登录页等问题。
进击的雷神4 天前
爬虫·架构
攻克多级导航循环与class属性ID提取:基于双层循环架构的精准爬虫设计在实际爬虫开发中,最复杂的场景莫过于:网站有多个导航分类,每个分类下又有分页,需要先遍历导航分类,再遍历每个分类下的分页,最后从每个文章页提取数据。这种"多级嵌套循环"的结构,对爬虫的流程控制能力提出了极高要求。
ZC跨境爬虫4 天前
前端·爬虫·python·计算机外设
Playwright核心操作实战精讲(QQ空间+百度+iframe,含等待_键盘_iframe操作)Playwright 作为微软推出的自动化测试与爬虫工具,凭借其强大的内置等待、简洁的API、跨浏览器支持等优势,成为近年来前端自动化、数据爬取领域的热门选择。本文将基于3个实战案例(QQ空间登录、百度键盘输入、iframe嵌入页面),系统梳理 Playwright 核心操作知识点,包括等待机制、iframe元素定位、键盘操作,全程实战导向,代码可直接复制运行。
ZC跨境爬虫4 天前
前端·javascript·爬虫
对称加密算法详解(DES篇):特点、实现与逆向实操前言:前文我们讲解了哈希算法(MD5、SHA系列),这类算法属于“不可逆加密”,仅用于数据校验、密码存储,无法还原原始数据。而对称加密算法属于“可逆加密”,核心特点是加密和解密使用相同的密钥,具备速度快、效率高的优势,适合加密大量数据,是Web逆向、数据传输中最常用的加密方式之一。本文将围绕对称加密的核心认知展开,重点拆解DES算法的特点、关键概念、JS/Python实现,补充辨别技巧和应用场景
南通DXZ4 天前
爬虫·python·selenium
Python爬虫进阶:Selenium模拟真人操作(解决反爬+动态网页)很多人学会 requests 爬虫后,会遇到一个问题:👉 页面数据抓不到!原因很简单:这时候,普通爬虫就失效了。