技术栈
爬虫
cipher
1 天前
后端
·
爬虫
·
python
crawl4ai:AI时代的数据采集利器——从入门到实战
在 AI 时代,高质量的数据采集成为构建智能应用的关键能力。传统爬虫工具要么输出混乱的 HTML,需要大量清洗工作;要么依赖昂贵的 API 服务,成本难以控制。crawl4ai 的出现正是为了解决这个实际问题。本文将从功能特性、技术架构、安装踩坑到实战配置,带你全面掌握这款 AI 友好的开源爬虫工具。
深蓝电商API
1 天前
爬虫
·
python
结构化数据提取:XPath vs CSS 选择器对比
在网页爬虫、自动化测试、结构化数据抽取场景中,XPath 与 CSS 选择器 是定位 HTML/XML 元素最常用的两种方式。二者语法、能力、适用场景差异明显,本文从语法、功能、性能、使用场景等维度系统对比,帮你在数据提取时做出最优选择。
易辰君
2 天前
开发语言
·
爬虫
·
python
【Python爬虫实战】正则:中文匹配与贪婪非贪婪模式详解
🌈个人主页:https://blog.csdn.net/2401_86688088?type=blog 🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html
深蓝电商API
2 天前
爬虫
·
python
爬虫增量更新:基于时间戳与哈希去重
在网络爬虫的实际应用中,全量爬取不仅浪费服务器资源、降低爬取效率,还会出现大量重复数据,影响后续数据清洗与分析。增量更新是解决这一问题的核心方案,而时间戳控制爬取范围 + 哈希去重保证数据唯一,是轻量、稳定、易落地的最佳实践。
电商API_18007905247
2 天前
服务器
·
开发语言
·
爬虫
·
数据分析
·
php
京东商品评论API接口封装的心路历程
作为一名后端开发者,日常工作中经常会遇到各类API接口的调用与封装需求。最近因项目需要,需对接京东商品评论相关接口,从最初的懵懂摸索、踩坑不断,到最终完成封装、稳定复用,整个过程充满了挑战与收获。今天就来梳理一下这次京东商品评论API接口封装的心路历程,分享给有类似需求的同行,也给自己留一份成长记录。
袁袁袁袁满
2 天前
爬虫
·
python
·
网络爬虫
·
数据采集
·
爬虫实战
·
视频爬虫
·
特推爬虫
Haystack与亮数据MCP工具结合实现自动化爬虫
新手用户注册就送30刀试用金:点击免费体验亮数据官号:爬虫技巧/代理IP/粉丝福利
深蓝电商API
2 天前
爬虫
·
python
Redis 作为爬虫去重与任务队列实战
在分布式爬虫开发中,去重与任务调度是两大核心痛点。单机内存去重容量有限、无法跨节点共享;任务队列不统一则会导致重复抓取、效率低下。Redis 凭借高性能、丰富数据结构与分布式友好特性,成为爬虫去重与任务队列的首选中间件。本文从原理到代码,带你实现工业级 Redis 爬虫去重 + 任务队列实战。
IP搭子来一个
2 天前
爬虫
·
网络协议
·
tcp/ip
爬虫使用代理IP全解析:原理、类型与实战指南
代理IP是爬虫系统中保障连接稳定性与提升数据采集效率的重要技术组件。在实际开发过程中,很多人都会疑问:代理IP到底是如何工作的?在Python爬虫项目中又该如何正确配置?本文将围绕代理IP的通信原理、常见类型差异以及具体代码实现方式进行系统解析,帮助你更清晰地理解其在爬虫架构中的作用。
iFeng的小屋
2 天前
笔记
·
爬虫
·
python
【2026最新xhs爬虫】用Python批量爬取关键词笔记,异步下载高清图片!
您好,我是@iFeng的小屋,一枚4年程序猿。很多做运营、电商数据分析或内容研究的朋友,都需要批量获取xhs笔记数据。但xhs反爬比较严格,手动翻页效率太低,而且单个Cookie很容易失效。
嫂子的姐夫
3 天前
爬虫
·
python
·
逆向
030-扣代码:湖北图书馆登录
案例地址:湖北图书馆登录加密参数:下面开始找加密位置,可以直接搜索password,但这里我们xhr断点跟到异步后第一个栈:
嫂子的姐夫
3 天前
爬虫
·
逆向
·
jsl纯算
031-jsl纯算:信息备案
案例地址:IP信息备案特点:执行流程:1.网站第一次请求返回一串简单js代码组成第二次请求的cookie
嫂子的姐夫
3 天前
爬虫
·
js逆向
·
大学生学习通
027-AES:学习通
案例地址:学习通加密参数是这两个:可以看出一些端倪:不是RSA(因为短明文没有加密出长密文)xhr断点断下来,看名字很可能就在这两个栈:
嫂子的姐夫
3 天前
爬虫
·
python
·
逆向
029-rs5:欧治
案例地址:rs5欧治加密cookie:生成逻辑:瑞数我们直接扣代码即可,讲扣代码步骤之前,有几个需要注意的点:
l1t
4 天前
人工智能
·
爬虫
利用网易有道龙虾调用ollama本地模型生成幻灯片内容
1.下载安装到网易有道龙虾主页 , 找到Windows版,点击下载,然后安装并运行龙虾。有兴趣研究的,可以访问开源地址: https://github.com/netease-youdao/lobsterai
喵手
4 天前
爬虫
·
python
·
sqlite
·
爬虫实战
·
playwright
·
boss直聘职位数据采集
·
结构化解析
Python爬虫实战:Boss直聘职位数据采集实战 - Playwright + 结构化解析完整方案(附CSV导出 + SQLite持久化存储)!
㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久免费看,持续更新中,保底1000+(篇)硬核实战内容。
喵手
5 天前
爬虫
·
python
·
爬虫实战
·
零基础python爬虫教学
·
csv导出
·
构建书籍价格情报
·
书籍价格采集
Python爬虫实战:从零构建书籍价格情报数据库(附CSV导出 + SQLite持久化存储)!
㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久免费看,持续更新中,保底1000+(篇)硬核实战内容。
喵手
5 天前
爬虫
·
python
·
爬虫实战
·
零基础python爬虫教学
·
etag/last
·
modified
·
智能条件请求与流量优化
Python爬虫实战:基于ETag/Last-Modified的智能条件请求与流量优化!
㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久免费看,持续更新中,保底1000+(篇)硬核实战内容。
小恰学逆向
6 天前
爬虫
【爬虫JS逆向实战】关于this指向的逆向实战——某产权交易中心数据解密
声明:本文仅提供逆向思路和方法,不提供完整代码,所有一切仅供学习交流使用,切勿使用爬虫脚本对网站进行高频率或高并发数据爬取行为,如对网站造成损失的,后果自负!!!
喵手
6 天前
爬虫
·
python
·
爬虫实战
·
网易云
·
零基础python爬虫教学
·
音乐热门采集
·
热门歌单采集
Python爬虫实战:网抑云音乐热门歌单爬虫实战 - 从入门到数据分析的完整指南!
㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久免费看,持续更新中,保底1000+(篇)硬核实战内容。
喵手
6 天前
爬虫
·
python
·
爬虫实战
·
零基础python爬虫教学
·
billboard hot
·
历史版单采集
·
采集billboard hot
Python爬虫实战:节奏律动 - Billboard Hot 100 历史榜单深度采集实战!
㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐⭐⭐ 🉐福利: 一次订阅后,专栏内的所有文章可永久免费看,持续更新中,保底1000+(篇)硬核实战内容。