nigx屏蔽无用爬虫

大量恶意爬虫占用系统资源,频繁访问服务器快耗竭。快速屏蔽掉无用爬虫可以参考下面方法。

3.229.95.193 - - [28/Apr/2025:08:27:58 +0800] "GET /news/1563.html HTTP/1.1" 200 11642 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36"

通过宝塔面板,伪静态重写,代码如下:

if (http_user_agent \~\* "SemrushBot/7\~bl\|YandexBot\|Amazonbot/0.1\|GPTBot/1.2\|GPTBot\|Bytespider\|meta-externalagent\|Amazonbot\|GPTBot\|Meta-ExternalAgent\|FeedDemon\|Indy Library\|Alexa Toolbar\|AskTbFXTV\|AhrefsBot\|CrawlDaddy\|CoolpadWebkit\|Java\|Feedly\|UniversalFeedParser\|ApacheBench\|Microsoft URL Control\|Swiftbot\|ZmEu\|oBot\|jaunty\|Python-urllib\|lightDeckReports Bot\|YYSpider\|DigExt\|HttpClient\|MJ12bot\|heritrix\|EasouSpider\|Ezooms\|\^" ) {

return 403;

}

重写之后,系统负载正常。

相关推荐
青青子衿_211 小时前
TikTok爬取——视频、元数据、一级评论
爬虫·python·selenium
interception4 小时前
爬虫js逆向,jsdom补环境,抖音,a_bogus
javascript·爬虫·python
q***25117 小时前
Python中的简单爬虫
爬虫·python·信息可视化
Glommer1 天前
简单聊一下 tls 指纹校验
爬虫·浏览器
xinxinhenmeihao1 天前
爬虫为什么要用动态ip?动态IP在爬虫中起到哪些作用?
爬虫·网络协议·tcp/ip
APIshop1 天前
代码解析:通过第三方爬虫获取1688商品详情接口
爬虫·okhttp
深蓝电商API2 天前
初级爬虫反爬应对:解决 403、IP 限制的简单方法
爬虫·python
深蓝电商API2 天前
爬虫速度优化:初级阶段如何提升爬取效率(无复杂操作)
爬虫
芝麻开门-新起点2 天前
贝壳的反爬虫机制深度解析
爬虫
q***T5832 天前
MySQL爬虫
数据库·爬虫·mysql