技术栈
爬虫
x***J348
14 小时前
开发语言
·
爬虫
·
python
Python多线程爬虫
先简单说说多线程是啥。线程是程序执行的最小单元,一个进程里可以跑多个线程,共享内存资源。在爬虫场景下,比如你要抓取100个网页,单线程得顺序请求,每个等1秒的话总共得100秒。但如果开5个线程,每个线程处理20个页面,理论上时间能缩短到20秒左右——因为网络I/O等待时,其他线程能接着干活。Python的threading模块让创建线程变得很简单,用Thread类就能定义新线程,指定目标函数就行。
m***D286
14 小时前
开发语言
·
爬虫
·
python
Python网络爬虫实战案例
环境准备除了requests和BeautifulSoup,这次必须用上Selenium和PyExecJS。目标网站商品列表通过JS加载,简单请求拿不到完整数据。安装命令:
青青子衿_21
1 天前
爬虫
·
python
·
selenium
TikTok爬取——视频、元数据、一级评论
笔者今天给大家呈上一个tiktok爬虫代码,该方法采取拟人化策略,每个视频数据存储为一个data下的文件架,每个子文件架有三个文件,分别是“视频本身,视频元数据与一级评论”,如下所示:
interception
1 天前
javascript
·
爬虫
·
python
爬虫js逆向,jsdom补环境,抖音,a_bogus
先看成品1,分析需要逆向的参数:a_bogus2,xhr断点3,经过大量的分析,a_bogus的生成位置是这个栈
q***251
2 天前
爬虫
·
python
·
信息可视化
Python中的简单爬虫
实际上Web服务器和浏览器的通讯流程过程并不是一次性完成的, 这里html代码中也会有访问服务器的代码, 比如请求图片资源。 那像0.jpg、1.jpg、2.jpg、3.jpg、4.jpg、5.jpg、6.jpg这些访问来自哪里呢 答:它们来自index.html
Glommer
2 天前
爬虫
·
浏览器
简单聊一下 tls 指纹校验
本文章只做技术探讨, 请勿用于非法用途。爬虫工作的又一大阻碍, tls 指纹校验。最近正好也遇到了, 大概去了解了一下, 顺便跟大家聊聊这个东西。
xinxinhenmeihao
2 天前
爬虫
·
网络协议
·
tcp/ip
爬虫为什么要用动态ip?动态IP在爬虫中起到哪些作用?
在当今数字化信息爆炸的时代,网络爬虫作为一种高效的数据采集工具,正广泛应用于各个领域。无论是市场调研、舆情监测还是学术研究,都离不开爬虫的助力。然而,在爬虫的实际应用中,动态 IP 成为了不可或缺的关键要素。那么,爬虫为什么要用动态 IP 呢?动态 IP 在爬虫中又起到哪些作用呢?
APIshop
2 天前
爬虫
·
okhttp
代码解析:通过第三方爬虫获取1688商品详情接口
以下内容将带你从“零”开始,完整梳理通过第三方爬虫获取1688商品详情接口的核心思路、落地代码、常见反爬与应对策略,以及合规注意事项,帮助你快速、稳定地拿到商品结构化数据。
深蓝电商API
3 天前
爬虫
·
python
初级爬虫反爬应对:解决 403、IP 限制的简单方法
在 Python 爬虫入门实践中,新手最常遇到的两大 “拦路虎” 莫过于 403 Forbidden 错误和 IP 限制。这两种反爬机制是网站最基础的防护手段,却常常让刚接触爬虫的开发者无从下手。本文将从问题本质出发,分享 3 种简单易操作、可直接落地的解决方案,帮助新手快速突破基础反爬限制,顺利完成数据采集。
深蓝电商API
3 天前
爬虫
爬虫速度优化:初级阶段如何提升爬取效率(无复杂操作)
在 Python 爬虫的学习和实践初期,很多开发者都会遇到一个共性问题:爬取速度慢,尤其是面对数据量较大的目标网站时,动辄几小时甚至几天的等待时间严重影响效率。其实,无需掌握复杂的分布式爬虫、异步框架等高级技术,通过一些基础且易操作的优化手段,就能让爬虫速度实现质的飞跃。本文将聚焦初级阶段的核心优化点,结合实际案例和可直接复用的代码,帮助大家在不增加技术复杂度的前提下,高效提升爬取效率。
芝麻开门-新起点
3 天前
爬虫
贝壳的反爬虫机制深度解析
贝壳作为国内领先的房产交易与服务平台,汇聚了海量真实房源、交易数据及用户信息,这些核心数据是平台竞争力的关键支撑。为防范恶意爬取导致的数据泄露、服务瘫痪及不正当竞争,贝壳构建了一套多层次、立体化的反爬虫防护体系。结合技术实践与公开案例,其反爬虫机制可从访问层、请求层、行为层及数据安全层四个核心维度展开解析。
q***T583
3 天前
数据库
·
爬虫
·
mysql
MySQL爬虫
先说说为啥选MySQL。这玩意儿普及率高啊,几乎是个服务器都会装,学习资料也多。对于爬虫这种结构性比较强的数据,用关系型数据库管理起来确实方便,后期做去重、查询、分析都顺手。当然MongoDB也行,但考虑到团队里其他人对SQL更熟,最后还是选了MySQL。
木子杳衫
3 天前
爬虫
【爬虫项目】大众点评电影数据爬虫实战
选择与本地Chrome浏览器对应版本的驱动程序,可参考这篇博主文章 https://blog.csdn.net/m0_54958293/article/details/134663146
T***1607
3 天前
爬虫
·
objective-c
·
rizomuv
JavaGraphQLAPI
先简单唠唠GraphQL是啥。GraphQL是Facebook搞出来的一种查询语言,专门用于API开发。它核心思想是让客户端能精确请求所需的数据,避免过度获取或不足。比如,传统REST API里,你可能得调多个端点来获取用户信息和订单列表,但GraphQL一个查询就能搞定。在Java生态里,有个叫graphql-java的库挺流行,它提供了完整的工具来构建GraphQL服务。我用的就是这库,配合Spring Boot,搭建起来超快。
想看一次满天星
3 天前
javascript
·
爬虫
·
python
·
语雀
·
阿里140
阿里140-语雀逆向分析
python代码如下python代码如下python代码如下
云栈开源日记
3 天前
数据库
·
爬虫
·
python
·
学习
·
机器学习
·
django
Python 开发技术栈梳理:从数据库、爬虫到 Django 与机器学习
很多开发者学 Python 都是东拼西凑,学完基础不知道怎么做项目,学完框架不懂底层原理。最近整理了一套比较系统的学习资源,从基础语法到架构设计都有覆盖,分享给需要的朋友。
drkkky<V><X>
4 天前
爬虫
如何从中国稳定获取 Jahez 数据?我的技术方案与完整实践分享
在中东外卖与即时零售市场中,Jahez 是一个绕不开的名字:它是沙特本地增长最快的 on-demand 生活服务平台,从外卖起家,如今覆盖快电商(Q-commerce)、云厨房、体育生活电商、实时配送等 @zaqm88 场景,业务扩展到沙特、巴林、科威特多个国家。
Z***2580
4 天前
java
·
开发语言
·
爬虫
Java爬虫框架
先说说Jsoup吧,这应该是很多Java开发者最早接触的爬虫工具。严格来说它不算完整框架,更像个加强版XML解析器。最大的优势是上手简单,配合CSS选择器提取数据特别方便。记得当初学爬虫的时候,用原生HttpURLConnection折腾半天才能拿到数据,换成Jsoup三行代码就搞定了。不过它的短板也很明显,缺乏分布式支持,线程管理要自己实现,遇到动态渲染的页面就无能为力了。
z***I394
4 天前
开发语言
·
javascript
·
爬虫
JavaScript爬虫应用案例
首先,得明确爬虫的目标。我选的是个大型电商网站,它页面的商品价格经常变动,而且部分数据是通过Ajax异步加载的,传统HTTP请求抓不到完整内容。这时候,Puppeteer就派上用场了——它本质上是一个无头浏览器,能执行JavaScript代码,完美应对这种动态渲染的页面。我用的环境是Node.js 14以上版本,安装Puppeteer很简单,直接npm install puppeteer就行。不过要注意,它自带Chromium,如果网络不好可能会下载失败,可以用puppeteer-core加本地Chrom
s***8727
4 天前
爬虫
·
python
·
信息可视化
【Python】网络爬虫——词云wordcloud详细教程,爬取豆瓣最新评论并生成各式词云
目录一、功能介绍二、关键技术1、安装WordCloud2、利用WordCloud1、WordCloud的基础用法