技术栈
爬虫
叫我刘同学
2 小时前
爬虫
数据存储:从零开始掌握爬虫数据的持久化存储
做爬虫这么多年,遇到过最崩溃的事情是什么?莫过于是辛辛苦苦爬了几个小时甚至几天的大量数据,因为程序意外中断、电脑突然关机,一夜回到解放前。
ftpeak
2 小时前
开发语言
·
爬虫
·
python
·
playwright
网络爬虫Playwright Python 教程:从入门到实战
这是一份专为移动端阅读优化的 Playwright Python 教程,语言通俗、步骤清晰、示例完整。全程用同步模式演示(新手友好),关键处会标注异步写法差异。
smachao
7 小时前
爬虫
初级爬虫实战——麻省理工学院新闻
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【宝藏入口】。爬取news.mit.edu的字段,包含标题、内容,作者,发布时间,链接地址,文章快照 (可能需要翻墙才能访问)
bitt TRES
7 小时前
爬虫
·
开源
开源的不需要写代码的爬虫maxun
转自github热门项目GitHub - getmaxun/maxun: ?? Open-source no-code web data extraction platform. Turn websites to APIs and spreadsheets with no-code robots in minutes! [In Beta],更多详细信息见github。本文主要是讲一下自己部署遇到的一些小问题。可以直接看最后一节,获得博主专属个人经验。
深蓝电商API
17 小时前
爬虫
·
闲鱼
闲鱼商品信息抓取:基于 Frida 的 APP 逆向与数据提取
在移动端数据采集场景中,闲鱼这类电商 App 普遍采用签名校验、协议加密、反调试、Root 检测等防护手段,传统抓包工具难以直接获取明文商品数据。Frida 作为动态插桩工具,无需脱壳即可实时 Hook 关键函数,拦截加密参数、解密响应、提取商品标题、价格、库存、卖家信息等核心字段,是移动端逆向采集的高效方案。
电商API_18007905247
1 天前
爬虫
·
数据挖掘
·
数据分析
闲鱼商品采集API商品列表API店铺商品API
通过item_search搜索获取打印机的商品,返回商品id、商品价格、商品链接、地区、用户名等。响应示例
qq_28372005
1 天前
网络
·
爬虫
·
python
Python模块精进: urllib 从入门到精通
本章聚焦 Python 网络请求核心能力,帮助读者从零到一掌握urllib 标准库,从基础请求发送到高级爬虫实战、异常处理、性能优化全覆盖。通过本章学习,你将全面掌握Python urllib 模块从入门到精通这一核心主题,可独立完成接口调用、网页抓取、数据采集、表单提交等开发任务。
wanhengidc
1 天前
运维
·
服务器
·
爬虫
·
科技
·
游戏
·
智能手机
服务器 数据科技发展
在数字经济时代,服务器作为数据存储、处理与传输的核心枢纽,其性能、稳定性和安全性直接关系到企业的数字化转型进程和业务创新能力,从海量用户数据的实时分析、云计算平台的高效运行,到人工智能模型的训练与推理、物联网设备的互联互通,服务器都扮演着不可或缺的关键角色。
科技牛牛
1 天前
人工智能
·
爬虫
·
ip
AI爬虫vs网站封禁:IP封锁大战升级
一份来自 Cloudflare 的 2025 年度互联网回顾报告,撕开了互联网表面平静下的一道裂缝:ChatGPT 的爬虫 GPTBot,已成为全球被封锁次数最多的网络机器人。
小白学大数据
1 天前
爬虫
·
python
·
microsoft
·
交互
Python 实现可交互滑块拼图,图形拖拽移动无卡顿
滑块拼图是Python GUI开发的经典实战案例,能直观体现图形拖拽、事件监听等核心技术。本文基于tkinter库,快速搭建可交互滑块拼图,拆解核心实现逻辑。
Luca_kill
2 天前
爬虫
·
python
·
ai
·
数据采集
·
mcp
·
webscraping
·
集蜂云
MCP数据采集革命:从传统爬虫到智能代理的技术进化
在AI Agent遍地开花的今天,数据采集不再是简单的HTTP请求和HTML解析,而是正在经历一场由MCP驱动的深度变革。
ZC跨境爬虫
2 天前
分布式
·
爬虫
·
python
·
scrapy
Scrapy分布式爬虫(单机模拟多节点):豆瓣Top250项目设置与数据流全解析
在爬虫开发中,面对大规模数据爬取场景,分布式架构是提升效率、突破单机性能瓶颈的核心方案。本文基于豆瓣Top250电影爬取项目,详解如何在单台电脑上模拟多台电脑的分布式爬虫场景,重点拆解Scrapy项目空间的核心配置、分布式改造关键要点,以及全流程数据流流转逻辑,面向有Scrapy基础的开发者,跳过新手入门细节,直击分布式爬虫的核心实现与优化思路。
深蓝电商API
2 天前
爬虫
·
小红书
小红书商品笔记抓取:笔记ID与商品关联关系解析
在小红书电商生态中,笔记 ID是内容唯一标识,商品 ID是货品唯一标识,二者的关联关系是种草归因、选品分析、流量投放的核心数据链路。本文从关联逻辑、抓取路径、字段解析、合规边界四个维度,完整拆解笔记与商品的绑定机制与采集方法。
ZC跨境爬虫
2 天前
redis
·
分布式
·
爬虫
·
python
·
scrapy
通俗易懂讲解分布式爬虫基础概念(附Scrapy-Redis实操教程)
很多接触爬虫有一段时间的小伙伴,在掌握了基础的单机爬虫后,一听到“分布式爬虫”就觉得高深莫测,甚至望而却步。其实分布式爬虫本质上就是“多人协作干活”,核心逻辑非常简单,今天就用最接地气的语言,把分布式爬虫的基础概念、核心原理、必备工具(Redis)以及实操部署,一次性讲明白,新手也能轻松理解,看完就能上手模拟部署。
画堂秋
2 天前
数据库
·
爬虫
网站爬取实例操作
Python 语言基础夯实:掌握 Python 语言的变量定义、数据类型(如整数、浮点数、字符串、列表、元组、字典等)、控制流语句(if-else、for 循环、while 循环)、函数定义与调用等基本语法。深入理解面向对象程序设计的基本思想,包括类与对象的概念、属性和方法的定义、继承与多态的实现,通过实际编程案例,熟练运用这些思想和方法构建程序逻辑,为后续复杂项目开发筑牢根基
HP-Patience
2 天前
爬虫
·
python
【Python爬虫】验证码识别技术
在网络爬虫开发过程中,验证码是一个常见的反爬机制。网站通过验证码来区分人类用户和机器爬虫,增加了自动化采集数据的难度。本文将详细介绍如何使用 Python 实现网站验证码的识别,包括文字验证码和计算型验证码的处理方法。
Cha0~
3 天前
爬虫
·
搜索引擎
搜索引擎爬虫语言识别机制详解
多语言网站通过多层机制实现搜索引擎爬虫的语言识别,确保爬虫能够正确抓取和索引不同语言版本的页面内容。这是实现国际化网站 SEO 优化的关键技术点。
遇事不決洛必達
3 天前
爬虫
·
python
·
protobuf
某方数据库protobuf详解
Protobuf 是由 Google 开发的一种语言无关,平台无关,可扩展的序列化结构数据的方法,可用于通信和数据存储。提到 Protobuf 就不得不提到 序列化和反序列化 的概念。序列化和反序列化属于通信协议的一部分,它们位于 TCP/IP 四层模型中的应用层和 OSI 七层模型中的表示层。序列化是把应用层的对象转换为二进制串,反序列化是把二进制串转化成应用层的对象。这里详细分析请看 参考文章3。
ZC跨境爬虫
3 天前
redis
·
分布式
·
爬虫
·
python
纯requests+Redis实现分布式爬虫(可视化4终端,模拟4台电脑联合爬取)
摘要:本文详细讲解如何使用Python的requests库结合Redis,实现分布式爬虫架构,通过自动弹出4个可视化终端(模拟4台电脑),完成小说章节的分布式爬取、任务调度与数据汇总。全程不使用Scrapy框架,不依赖多线程,纯多进程+Redis队列实现分布式协作,适合爬虫初学者快速掌握分布式核心原理,同时提供完整可运行代码、详细操作步骤、运行过程演示及常见问题排查,助力大家轻松上手分布式爬虫开发。
以神为界
4 天前
开发语言
·
网络
·
爬虫
·
python
·
安全
·
web
Python入门实操:基础语法+爬虫入门+模块使用全指南
Python作为一门热门脚本语言,凭借精简的语法、丰富的内置库和高效的开发效率,成为新手入门编程的首选,尤其适合解决重复性操作,无需在语法和环境配置上花费大量时间。需要注意的是,Python对缩进(Tab)有着严格要求,缩进错误会直接导致代码运行失败。