nigx屏蔽无用爬虫

大量恶意爬虫占用系统资源,频繁访问服务器快耗竭。快速屏蔽掉无用爬虫可以参考下面方法。

3.229.95.193 - - [28/Apr/2025:08:27:58 +0800] "GET /news/1563.html HTTP/1.1" 200 11642 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36"

通过宝塔面板,伪静态重写,代码如下:

if (http_user_agent \~\* "SemrushBot/7\~bl\|YandexBot\|Amazonbot/0.1\|GPTBot/1.2\|GPTBot\|Bytespider\|meta-externalagent\|Amazonbot\|GPTBot\|Meta-ExternalAgent\|FeedDemon\|Indy Library\|Alexa Toolbar\|AskTbFXTV\|AhrefsBot\|CrawlDaddy\|CoolpadWebkit\|Java\|Feedly\|UniversalFeedParser\|ApacheBench\|Microsoft URL Control\|Swiftbot\|ZmEu\|oBot\|jaunty\|Python-urllib\|lightDeckReports Bot\|YYSpider\|DigExt\|HttpClient\|MJ12bot\|heritrix\|EasouSpider\|Ezooms\|\^" ) {

return 403;

}

重写之后,系统负载正常。

相关推荐
Clown9513 小时前
Go语言爬虫系列教程(三)HTML解析技术
爬虫·go·goquery
一个天蝎座 白勺 程序猿16 小时前
Python爬虫(35)Python爬虫高阶:基于Docker集群的动态页面自动化采集系统实战
爬虫·python·docker
举一个梨子zz16 小时前
Java—— 网络爬虫
java·开发语言·爬虫·intellij-idea·需求分析
Clown9518 小时前
Go语言爬虫系列教程(二) HTTP请求与响应处理详解
爬虫·http·golang
一个天蝎座 白勺 程序猿20 小时前
Python爬虫(34)Python爬虫高阶:动态页面处理与Playwright增强控制深度解析
开发语言·爬虫·python
engchina2 天前
使用Python和FastAPI构建网站爬虫:Oncolo医疗文章抓取实战
爬虫·python·fastapi
ip小哥2 天前
我的爬虫夜未眠:一场与IP限流的攻防战
爬虫·网络协议·tcp/ip
苏苏susuus2 天前
python:基础爬虫、搭建简易网站
开发语言·爬虫·python
jay神2 天前
基于flask+vue的电影可视化与智能推荐系统
vue.js·爬虫·python·flask·电影可视化系统
码有余悸2 天前
(6)python爬虫--selenium
爬虫·python·selenium