爬虫

Python私教13 小时前
爬虫
Playwright MCP 用 a11y 树抓页面:比全量 DOM 省 token 的采集 Agent作者:张大鹏 | 大鹏AI教育标签:AI 爬虫 Playwright MCP 浏览器自动化做 AI 采集 Agent 时,很多人第一步就踩坑:把整页 DOM 或 innerHTML 全量丢给模型。
枫叶林FYL15 小时前
爬虫·python·深度学习·wpf
项目九:异步高性能爬虫与数据采集中枢 —— 基于 Crawl<sub>4</sub>AI 与 Playwright 的现代化数据采集平台 项目总览阅读导航:这篇文章很长,但我们把它拆成了五个层层递进的模块。建议你先快速浏览 9.1 的架构全景图,建立"地图感",再跟着 9.2→9.5 的路径,一步步钻进每个子系统的内部。如果你只有 10 分钟,直接跳到 9.1.1 和 9.4.4,看完这两节,你就掌握了这套系统的灵魂。
上海云盾-小余18 小时前
网络·爬虫·web安全
恶意爬虫精准拦截:网站流量净化与资源守护方案流量特征分析 通过分析访问频率、请求头完整性、IP分布等特征识别爬虫行为。高频访问、缺失User-Agent或Referer、单一IP多账号操作等均为典型特征。建立动态基线模型,实时比对异常流量模式。
小白学大数据20 小时前
开发语言·爬虫·python·数据分析
深度探索:Python 爬虫实现豆瓣音乐全站采集在大数据与人工智能技术快速迭代的行业背景下,音乐平台沉淀的公开数据具备极高的研究价值与分析价值。豆瓣音乐作为国内权威性较强的音乐评分社区,平台汇聚海量专辑资料、艺人信息、用户评分、社交评论以及行业榜单等结构化、半结构化公开数据。此类数据可应用于音乐舆情分析、大众审美偏好调研、音乐行业市场研判等多元化技术场景。
烟雨江南aabb20 小时前
开发语言·爬虫·python
Python第六弹:python爬虫篇:什么是爬虫网络爬虫(又称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器),发送网络请求,接收请求响应,一种按照一定规则,自动抓取互联网数据的程序。
深蓝电商API1 天前
分布式·爬虫·架构
分布式电商爬虫架构:Scrapy-Redis+消息队列的集群部署在电商数据采集场景中,单节点爬虫存在抓取效率低、任务无法分片、故障难以扩容、IP 资源利用率不足等痛点,面对海量商品列表、价格数据、店铺信息、营销活动等大规模采集需求,传统单机 Scrapy 爬虫早已无法适配业务量级。
WL_Aurora1 天前
爬虫·python
Python爬虫实战(六):新发地蔬菜价格数据采集.本篇将开启一个全新的技术维度——POST表单接口爬虫,深入讲解如何:目标站点特点: 北京新发地农产品批发市场是国内最大的农产品集散地之一,其官网提供实时价格查询服务。与前几篇的GET请求不同,该站点采用POST表单提交方式获取数据,返回JSON格式,且需要完整的请求头才能通过反爬验证。这是工业爬虫中最常见的接口类型之一。
盲敲代码的阿豪1 天前
开发语言·爬虫·python
Python 入门基础教程(爬虫前置版)专为完全不懂编程的零基础小白打造,内容简单、知识点全面,结合实操练习学完即可看懂爬虫基础代码Python就像是一个超级翻译官,它能把我们人类能看懂的简单指令,翻译成电脑能执行的复杂操作。
深蓝电商API2 天前
爬虫
电商网站行为检测绕过:鼠标轨迹模拟 + 点击热区分析在电商平台风控体系日趋完善的当下,平台依托用户行为数据搭建起多层反爬、反恶意操作防护机制,从账号批量注册、商品数据采集到低价抢购、批量下单等违规操作,都会被行为风控系统精准拦截。其中鼠标移动轨迹识别与页面点击热区校验是电商行为检测最核心的两大判定维度,也是自动化脚本、爬虫程序最容易暴露异常特征的环节。本文从风控检测原理出发,详解鼠标轨迹仿真逻辑与点击热区适配思路,合规剖析正常用户行为特征,仅用于网络安全技术研究与风控防护优化学习。
深蓝电商API2 天前
爬虫
移动端APP抓包实战:Frida+SSL Pinning绕过的完整配置日常移动端渗透测试、接口数据分析、APP 逆向调试中,SSL 证书锁定(SSL Pinning) 是绝大多数 APP 最常用的防抓包手段。普通 Charles、Fiddler 安装系统证书后依旧无法抓取 HTTPS 数据包,提示证书不信任、连接失败、请求直接拦截。
枫叶V2 天前
后端·爬虫
Scrapling 入门:一个现代 Python 网页采集框架Scrapling 是一个 Python Web Scraping 框架,可以用来抓取静态网页、动态网页,也可以编写多页面爬虫。它的 API 风格有点像 requests + BeautifulSoup + Scrapy + Playwright 的结合体。
YYueHua52 天前
爬虫
python3爬虫基础--HTTP基本原理URI:统一资源标志符;Uniform Resource IdentifierURL:统一资源定位符;Uniform Resource Locator
靠谱品牌推荐官2 天前
前端·爬虫·架构
【架构实战】如何设计一套原生支持 GEO 大模型爬虫语义索引的 HTML5/CSS3 纯净白盒前端架构?在 2026 年,随着生成式搜索(GEO)全面重塑传统的搜索引擎流量格局,企业级门户与多语言跨境独立站的建设正迎来一场从“视觉设计”向“语义确权”的底层变革。传统的 南京网站建设 往往依赖低代码组件库或老旧 CMS 皮肤进行疯狂拖拽,这在前端会生成海量的冗余样式表(CSS Noise)与非标脚本。这种“噪声比过高”的前端结构,会导致主流大模型的网络爬虫(LLM-Spider)在进行语义切片(Chunking)时发生高频断层,直接导致企业网站在 AI 检索中被降权。
烟雨江南aabb2 天前
爬虫·python·beautifulsoup
Python第七弹:爬虫篇:BeautifulSoup库BeautifulSoup,它是一个用于解析 HTML 和 XML 文档的 Python 库,能够从网页中提取数据,常用于网页抓取和数据挖掘。
深蓝电商API3 天前
爬虫·反爬
请求签名算法破解:从Chrome DevTools到Python还原的完整流程在网络爬虫、接口逆向、自动化接口调用场景中,绝大多数网站都会对请求参数、请求体、Header进行加密签名校验,直接明文发包会直接返回签名错误、权限不足、拒绝访问等结果。想要稳定调用目标接口,核心就是逆向破解接口签名算法。
DevnullCoffe4 天前
爬虫·python·api
用 MCP 让 AI Agent 直接批量下载亚马逊商品图片——原理、踩坑与实现TL;DR:亚马逊图片 URL 藏在 JS 渲染后的 DOM 里,静态请求拿不到;自建爬虫反爬成本高。最稳方案是调 Pangolinfo Scrape API 直接拿结构化 JSON,或通过 MCP 协议让 Open Claw / Claude 直接驱动采集,不写一行 API 代码。
深蓝电商API4 天前
爬虫
电商网站IP封禁绕过:代理池+流量指纹模拟的实战方案如今主流电商平台风控体系愈发成熟,平台依靠 IP 地址、设备指纹、请求行为、网络特征等多维度数据构建拦截机制,爬虫批量采集、商品价格监控、店铺数据复盘、跨境电商数据同步等常规运营与技术操作,极易触发单 IP 封禁、网段封禁、账号连带限制、设备黑名单等处罚,直接中断业务流程。
川冰ICE5 天前
爬虫·python·pandas
Python爬虫实战⑳|Pandas时间序列,趋势分析一网打尽作者:专注Python实战,分享爬虫与数据分析干货 更新时间:2026年4月 适合人群:有Pandas基础、想分析时间趋势的开发者
小白学大数据5 天前
开发语言·javascript·爬虫·python
Python 爬虫动态 JS 渲染与无头浏览器实战选型指南常规 HTTP 请求仅能获取服务端直返的原始 HTML 源码。当下大量网站基于SPA 单页应用、React/Vue 前端框架构建,电商列表、资讯信息流等核心内容均由 JavaScript 动态渲染生成。此类场景下,直接请求获取的 HTML 往往仅保留页面骨架结构,无实际业务数据。因此爬虫必须依托真实浏览器引擎执行 JS 渲染逻辑,方可获取完整的页面渲染后 DOM 内容。
WL_Aurora5 天前
爬虫·python
Python爬虫实战(三):水果行情网站大规模分页爬取在前两篇中,我们分别学习了API接口型爬虫(图书网站)和静态网页解析型爬虫(百度热搜)。这两类任务的共同特点是数据量小、页数有限,几页到几十页的数据可以轻松处理。然而,在实际工程场景中,爬虫往往需要面对数千甚至数万页的大规模数据采集任务。