爬虫

༒࿈南林࿈༒1 分钟前
爬虫·大模型应用·mcp·skills
国家医保局 API 加密体系逆向全记录——SM2签名 + SM4加解密 + SHA256 头签名爬虫古法炮制似乎有点走下坡了(当然这个是个人见解),大模型的快速发展对各行各业冲击都很大,本次对国医保进行纯大模型(Qoder+DeepSeek-V4-Pro),用MCP和skills协调处理,本地纯协议实现
跨境数据猎手2 分钟前
爬虫·架构·系统架构
复刻Cssbuy跨境淘宝代购集运系统搭建方案「技术、数据、接口、系统问题欢迎留言私信沟通」南美跨境反向海淘市场具备本地化支付特殊、物流链路长、语言单一、移动端流量占比高的典型特征,与中东、欧美市场逻辑差异极大。传统通用版代购集运系统直接部署会出现语言适配不全、汇率机制不匹配、物流渠道无效、支付通道无法落地等问题。
郑洁文5 小时前
网络·爬虫·网络安全·xss
基于网络爬虫的XSS漏洞检测系统的设计与实现随着互联网技术的迅猛发展和Web应用的广泛普及,网络安全威胁日益严重,其中跨站脚本(XSS)攻击已成为Web应用中最常见的漏洞类型之一。根据OWASP最新安全威胁报告,XSS漏洞在各类Web安全漏洞中始终排名前列,给企业和个人用户带来了巨大的安全风险。传统的XSS漏洞检测方法主要依赖人工代码审计,效率低下且容易遗漏漏洞,难以应对大规模Web应用的检测需求,故设计并实现一个基于网络爬虫的自动化XSS漏洞检测系统。该系统能够自动爬取目标网站、分析潜在注入点、生成测试Payload并执行漏洞检测,最终生成详细的
Super Scraper6 小时前
人工智能·爬虫·ai·自动化·千问·mcp·qwen code
如何将赋予千问(Qwen Code)网络检索功能:集成MCP服务器Qwen Code 是一个开源的 AI 代理,运行在您的终端中,针对 Qwen 系列模型进行了优化。它可以读取大型代码库、编辑文件、运行命令,并自动化项目中的繁琐部分 — 所有操作都无需离开 shell。它不能独立完成的就是访问实时网页。它的知识仅停留在模型的训练截止和磁盘上的文件。
SilentSamsara7 小时前
开发语言·爬虫·python·青少年编程·playwright
爬虫工程化:Playwright + 反反爬 + 数据清洗管道实战requests.get(url) 获取的是服务器返回的第一帧 HTML——这对于 2015 年以前的网站完全够用。但现代网站的页面结构已经发生了根本变化:核心内容通过 AJAX 异步加载,列表通过无限滚动渲染,价格和库存通过 WebSocket 实时更新。requests 拿到的 HTML 里只有 <div id="app"></div> 和一个打包后的 JavaScript 文件。
专注VB编程开发20年9 小时前
爬虫·python·信息可视化
Python爬虫、提取网页内容,免费调用谷歌翻译接口一条 Python 包安装命令,作用是一次性安装两个非常常用的 Python 工具库,我给你用最简单、清晰的方式讲清楚它们分别是干嘛的:
Data 实验室9 小时前
爬虫
TaskPyro爬虫管理平台 v2.3.4:脚本即接口,调度即编排TaskPyro 是一个轻量级、功能丰富、稳定的 Python 任务调度平台,专注于提供简单易用的任务管理、爬虫调度解决方案和 AI 智能助手功能。它能够帮助您轻松管理和调度 Python 任务,特别适合需要定时执行的爬虫任务、数据处理任务,以及通过 AI 智能交互进行系统管理的场景。专业版独有"流程编排"功能,实现 Python 脚本零 API 封装化,让您的 Python 脚本秒变 HTTP 接口,无缝接入 n8n/Dify/Coze 等低代码生态,打造"脚本即服务"的轻量级 Serverless 函
小白学大数据10 小时前
开发语言·爬虫·python
全站链接深度爬取:Python GUI 事件绑定 + 运行时动态过滤实现思路全站爬虫落地痛点不在于 HTTP 请求收发,而在于爬取边界管控:无约束遍历极易产生海量冗余 URL,规则收紧又易漏采有效页面;传统命令行爬虫规则固化,变更配置需停机改码、重启项目。本文基于 Python3.10 + 实现Tkinter 轻量化 GUI 全站爬虫,支持前端可视化动态配置 URL 过滤规则,爬虫运行阶段实时加载更新规则;
绘梨衣54720 小时前
爬虫·ai编程
某爬虫策略的基础skillsSkill 是 Trae IDE 中的 AI 标准操作流程,存储在 .trae/skills/ 目录下,当用户触发特定场景时自动加载。
郑洁文1 天前
前端·爬虫·网络安全·自动化
基于网络爬虫的Web敏感信息泄露自动化检测工具随着互联网技术的快速发展,Web应用已成为企业和个人日常业务的重要载体。然而,Web应用中敏感信息泄露问题日益严重,给用户隐私和企业安全带来严重威胁。传统的安全检测工具存在操作复杂、结果呈现碎片化、技术门槛高等问题,难以满足中小企业和安全团队的实际需求。本文设计并实现一款基于网络爬虫的可视化Web敏感信息泄露自动化检测工具。工M具采用Python语言作为核心开发环境,基于Flask框架构建RESTful API接口,通过Scrapy爬虫框架实现目标资产探测与数据采集,利用正则表达式匹配、NLP语义分析实现
上海云盾-小余1 天前
爬虫
爬虫与 CC 同源伪装甄别:基于访问行为的拦截落地方案爬虫和CC攻击常伪装成正常用户访问,但两者行为模式存在差异。爬虫通常高频请求特定页面或接口,行为具有规律性;CC攻击则倾向于消耗服务器资源,请求分布更随机。两者均可能伪造User-Agent、IP轮询,但流量特征和访问深度不同。
如烟花的信页1 天前
javascript·爬虫·python·js逆向
数美滑块逆向分析本篇文章仅用于交流与学习,严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除。
Wonderful U1 天前
爬虫·python·django
基于Python爬虫+Django的轻量化天气预报系统:从数据抓取到可视化展示的完整实战在日常生活中,无论是日常出行、户外活动规划、校园通勤还是农业气象参考,天气查询都是不可或缺的需求。然而,当前市面上的主流天气应用和网页工具存在诸多不足,同时传统的爬虫脚本缺乏可视化界面,难以实际落地使用。具体痛点如下:
兆。1 天前
爬虫·langchain·自动化
LangChain自动化工具集成指南:面向爬虫开发者网页抓取和自动化是获取数据的重要手段。LangChain 提供多种网页抓取工具集成,让你可以轻松获取网页内容并与大模型结合。
深蓝电商API1 天前
人工智能·爬虫
当爬虫遇见大模型:AI驱动的智能数据采集新范式传统爬虫依赖硬编码规则,在面对异构站点、动态反爬与非结构化数据时,陷入维护成本高、适配周期长、鲁棒性差的困境。大模型(LLM)的介入,正将数据采集从 “规则驱动” 升级为语义驱动的智能范式,实现自适应解析、自主决策与全链路自动化,重构爬虫技术的核心逻辑与落地路径。
huangdong_1 天前
爬虫
淘宝图片下载工具技术解析:爬虫方案与浏览器方案的深度对比很多开发者在问:“为什么有的淘宝图片下载工具用着用着就坏了?”“爬虫方案和浏览器方案到底有什么区别?”
weixin_468466851 天前
爬虫·python·编程·scrapling
Scrapling 高效网络爬虫实战指南在开发数据采集工具时,很多开发者都会遇到这样的困境:明明知道目标网站上有需要的数据,但手动复制粘贴效率太低,一旦数据量增大或者需要定期更新,整个人力成本就完全无法承受。尤其是面对那些结构复杂、依赖动态渲染的现代网页,传统的简单请求往往只能拿到一堆空的 HTML 标签,让人无从下手。这时候,一个能够模拟真实浏览器行为、智能解析页面结构并高效提取数据的自动化方案就显得尤为重要。
小白学大数据1 天前
人工智能·爬虫·python·microsoft
业务落地:Python 列表在 AI 接口开发中的实战应用在 AI 接口工程化开发中,Python 列表并非仅承担基础数据存储职能。对话上下文滑动窗口、Token 配额裁剪、Embedding 向量化批量处理、API 请求队列等核心业务场景,均以列表作为底层数据载体。列表使用不当,轻则引发接口响应超时,重则造成上下文信息丢失,最终导致大模型输出结果异常。
kisy夏2 天前
大数据·爬虫·mysql
多千帆运营平台做千帆店铺运营后,最大的痛点其实不是运营本身,而是:尤其是:每天都在重复大量机械操作。因此我开发了一套:
bigfootyazi2 天前
开发语言·爬虫·python
python爬虫-基本库-urllib库(常用速查)实现HTTP请求的发送 扩展:基本HTTP库有urllib、requests、httpx等只能处理基本的请求,如果要添加详细的系你想,需要用下面的 Request类来构建请求