技术栈
爬虫
数据知道
3 小时前
爬虫
·
数据采集
·
指纹浏览器
·
浏览器指纹
浏览器硬件参数欺骗:CPU核心数、内存大小、设备像素比的精准伪造
在指纹浏览器的对抗中,当我们解决了 Canvas、WebGL、Audio 等高维度的渲染指纹后,往往会栽在几个最基础的硬件参数上:navigator.hardwareConcurrency(CPU 核心数)、navigator.deviceMemory(设备内存)和 window.devicePixelRatio(设备像素比)。
如烟花的信页
5 小时前
javascript
·
爬虫
·
python
·
js逆向
加速乐cookie逆向分析
本篇文章仅用于交流与学习,严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除。
xmtxz
6 小时前
爬虫
Burp Suite、爬虫、目录扫描工具实操深度总结
Burp Suite、爬虫、目录扫描工具实操深度总结赵新明文章标签:#Web 安全 #BurpSuite #渗透测试 #爬虫技术 #ZAP 目录扫描
yijianace
7 小时前
开发语言
·
爬虫
·
python
Python爬虫实战:BooksToScrape 多线程爬取与图片下载
BooksToScrape 网站,完成以下功能:项目不复杂,适合有基础的新人练手最终实现的流程如下:对应代码结构:
深蓝电商API
9 小时前
爬虫
·
playwright
Playwright 多浏览器并发:同时操控 100 个 Chrome 实例
在现代 Web 自动化、爬虫和测试领域,单浏览器实例的执行效率早已无法满足大规模任务需求。Playwright 作为微软推出的下一代自动化工具,凭借其原生的多浏览器支持和优秀的并发性能,成为实现大规模浏览器集群的首选方案。本文将深入探讨如何使用 Playwright 同时操控 100 个 Chrome 实例,从基础原理到生产级优化,带你掌握高并发浏览器自动化的核心技术。
数据知道
21 小时前
爬虫
·
数据采集
·
指纹浏览器
·
浏览器指纹
斩断 `navigator` 前端:底层重写 UserAgent/Platform/Language 属性描述符
在指纹浏览器的开发中,navigator 对象是兵家必争之地。风控系统对其属性的校验极其严苛,而 99% 的爬虫工程师和劣质指纹浏览器,都死在了对属性描述符的粗暴处理上。 试想一个最常见的场景:为了绕过检测,你用 JS 注入了一段代码:
深蓝电商API
1 天前
爬虫
·
playwright
Playwright深入浅出:从入门到企业级项目实战
在 Web 自动化、端到端测试、数据采集领域,Selenium、Puppeteer 曾长期占据主流地位。而Playwright凭借跨浏览器兼容、稳定的自动化能力、丰富的调试工具、原生支持多平台与 CI/CD 流水线,如今已成为企业级项目的首选方案。它由微软团队开发,统一支持 Chromium、Firefox、WebKit 三大内核,同时兼容桌面端、移动端模拟,兼顾测试、爬虫、后台自动化等多种场景。
小白学大数据
1 天前
开发语言
·
爬虫
·
数据分析
爬虫性能天花板:asyncio赋能 Aiohttp,并发提速 10 倍
在网络爬虫开发领域,爬取效率是衡量爬虫质量的核心指标。传统同步爬虫基于单线程阻塞请求,每一次网络请求都需要等待响应完成后,才能发起下一次请求,在海量数据爬取场景下,效率极低。即便通过多线程、多进程优化爬虫,也会面临线程切换开销大、资源占用高、并发上限受限等问题,无法突破IO阻塞带来的性能瓶颈。
深蓝电商API
1 天前
爬虫
·
selenium
·
puppeteer
·
playwright
Playwright vs Puppeteer vs Selenium 2026终极对比
在 2026 年的 Web 自动化领域,三大工具依然占据着绝对主导地位:微软的 Playwright、谷歌的 Puppeteer 和老牌的 Selenium。经过多年的迭代演进,这三个工具都已经发展出了各自独特的优势和定位。本文将基于 2026 年最新的版本数据和行业实践,从架构、功能、性能、AI 集成等多个维度进行全面对比,帮助团队在不同场景下做出最优的技术选型。
yijianace
1 天前
前端
·
爬虫
·
python
Python爬虫实战:分页爬取 + 详情页采集 + CSV存储
利用 BooksToScrape 网站完成一个完整的小型爬虫项目,实现:虽然网站本身比较简单,适合新手练习 没有用到多线程,还没学会
yijianace
1 天前
开发语言
·
爬虫
·
python
Python爬虫实战:ThreadPoolExecutor多线程采集书籍信息与图片下载
Python 爬虫和多线程,使用 BooksToScrape 网站作为练习项目,实现:项目不大,但在开发过程中踩到了不少坑
在放️
1 天前
开发语言
·
爬虫
·
python
Python 爬虫 · bs4 模块基础
Python 学习第 31 天(^_-)db(-_^)接上一篇讲解了 HTML 的结构与语法之后,我们就可以开始用 Python 编程语言去抓取 HTML 和 XML 中我们想要的内容。对于这个方向,Python 中有具体的模块方便我们处理。
belong_my_offer
1 天前
开发语言
·
爬虫
·
python
Python 数据采集完全指南 —— 从零开始掌握网络爬虫与文件读取
🐍 Python 入门系列从零开始,通过图解 + 完整代码,掌握数据采集的每一个步骤🌐 网络爬虫📁 文件读取🔌 API 调用🗄️ 数据库
遇事不決洛必達
2 天前
爬虫
·
python
·
线程
·
进程
·
gil锁
【Python基础】GIL 锁是什么及其对爬虫的影响
GIL 全称 Global Interpreter Lock,全局解释器锁。在 CPython 解释器中,同一时刻通常只允许 一个线程执行 Python 字节码。
綝~
2 天前
爬虫
·
面试
·
请求
爬虫数据采集工程师岗位面试题
跨境数据猎手
2 天前
大数据
·
运维
·
爬虫
大数据在电商行业的应用
如今大数据、人工智能技术早已走出实验室,渗透到各行各业的日常运转中。从国家级科研项目、公共信息治理,到民用搜索引擎、社交平台、本地生活服务推荐,数据驱动的模式已经成为常态。而电商作为数据密度最高、业务链路最长的行业之一,也是大数据技术落地最成熟的场景。
tang77789
2 天前
爬虫
·
网络爬虫
·
爬虫代理
·
代理ip
·
代理ip池
异步爬虫与代理IP池结合:用aiohttp提升10倍抓取效率
玩爬虫的小伙伴应该都深有体会,传统的同步爬虫真的太“磨叽”了。单线程阻塞的运行方式,批量抓取数据时又慢又拖沓,稍微多一点数据就任务堆积、耗时爆表。更头疼的是,全程只用一个IP频繁请求,很容易触发网站的反爬机制,轻则限流拦截,重则直接封IP,忙活半天的爬虫任务直接翻车。
深蓝电商API
2 天前
爬虫
行为模拟的艺术:如何让爬虫的鼠标轨迹像真人
在反爬虫技术日益精进的今天,简单的 HTTP 请求爬虫早已寸步难行。现代网站的风控系统不再只检查请求头和频率,而是深入到用户行为层面 —— 其中,鼠标轨迹分析是区分真人与机器最有效的手段之一。一个完美的鼠标轨迹模拟,能让你的爬虫在风控眼皮底下 "隐身",这已经成为高级爬虫工程师必备的核心技能。
嫂子的姐夫
2 天前
爬虫
·
python
·
js逆向
·
逆向
047-MD5:飞卢网
联系网站:飞卢网接口和加密参数如下我们尝试直接搜索关键字:每一个都看了,感觉都不太像,大家可以打断点试一试,然后我想进入启动器打断点发现启动器进不去,然后我尝试在之前搜索结果打断点发现打不上(我的打不上不一定你们打不上),然后我又尝试搜索其他参数名发现:
数据知道
2 天前
爬虫
·
数据采集
·
指纹浏览器
从Playwright到自研:构建指纹浏览器的技术栈选型与路线图
当一个爬虫工程师发现,哪怕用最干净的代理、最复杂的 Playwright 随机延时,依然过不了 Cloudflare 的 5 秒盾时,就注定要走向自研指纹浏览器的道路。Playwright/Selenium 的本质是“控制浏览器”,而指纹浏览器的本质是“重塑浏览器”。前者在应用层修修补补,后者在内核层重新定义。