nigx屏蔽无用爬虫

大量恶意爬虫占用系统资源,频繁访问服务器快耗竭。快速屏蔽掉无用爬虫可以参考下面方法。

3.229.95.193 - - [28/Apr/2025:08:27:58 +0800] "GET /news/1563.html HTTP/1.1" 200 11642 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36"

通过宝塔面板,伪静态重写,代码如下:

if (http_user_agent \~\* "SemrushBot/7\~bl\|YandexBot\|Amazonbot/0.1\|GPTBot/1.2\|GPTBot\|Bytespider\|meta-externalagent\|Amazonbot\|GPTBot\|Meta-ExternalAgent\|FeedDemon\|Indy Library\|Alexa Toolbar\|AskTbFXTV\|AhrefsBot\|CrawlDaddy\|CoolpadWebkit\|Java\|Feedly\|UniversalFeedParser\|ApacheBench\|Microsoft URL Control\|Swiftbot\|ZmEu\|oBot\|jaunty\|Python-urllib\|lightDeckReports Bot\|YYSpider\|DigExt\|HttpClient\|MJ12bot\|heritrix\|EasouSpider\|Ezooms\|\^" ) {

return 403;

}

重写之后,系统负载正常。

相关推荐
Data_agent3 小时前
Python编程实战:从类与对象到设计优雅
爬虫·python
艾上编程4 小时前
第三章——爬虫工具场景之Python爬虫实战:学术文献摘要爬取,助力科研高效进行
开发语言·爬虫·python
失败又激情的man6 小时前
爬虫逆向之云片滑块验证码
爬虫
深蓝电商API6 小时前
从数据采集到商业变现:网络爬虫技术的实战与边界
android·爬虫
小裴(碎碎念版)6 小时前
文件读写常用操作
开发语言·爬虫·python
艾上编程9 小时前
第三章——爬虫工具场景之Python爬虫实战:行业资讯爬取与存储,抢占信息先机
开发语言·爬虫·python
Pyeako9 小时前
网络爬虫相关操作--selenium库(超详细版)
爬虫·python·selenium
袁袁袁袁满11 小时前
基于selenium和亮数据爬取海外电商平台
爬虫·selenium·网络爬虫·数据采集·爬虫实战·电商采集·自动化采集
深蓝电商API11 小时前
从 “能爬” 到 “稳爬”:Python 爬虫中级核心技术实战
开发语言·爬虫·python
暗之星瞳15 小时前
python爬虫学习(搜索)
爬虫·python·学习