nginx 配置防爬虫

今天早上查看服务器,发现昨天发布的一个在线解析充电桩协议的网页工具有大量的访问记录,应该是爬虫在爬api接口数据。该工具api接口后台用的是python写的,和大多数项目一样也采用nginx反向代理,由于采用nginx,可以利用nginx配置限制小部分小爬虫。

一 Nginx 防爬虫配置手段

通过在 Nginx 中配置防爬虫通常需要结合 IP 限制、UA(User-Agent)过滤、访问频率限制等手段配置防爬虫。

nginx 防爬配置

1 nginx主配置如下图:
2 nginx 指定域名配置如下图:

图中配置说明:

nginx主配置是 在http部分是针对全局的,如果不配置子配置域名的server则会对所有站点会生效,在nginx 指定域名的server配置则只会对该域名生效。

测试效果如下:

1 频率限制:连续快速点击,超过频率时报429错误如下图:

2 基于 Referer 的过滤效果图:

以下针对上面所采用了三种防爬策略详细说明:

1 基于 User-Agent 的过滤

有些爬虫会使用特定的 User-Agent,可以通过配置拒绝这些 User-Agent。

复制代码
server {
    listen 80;
    server_name example.com;

    location / {
        if ($http_user_agent ~* (curl|wget|python|scrapy)) {
            return 403; # 禁止常见爬虫工具
        }

        # 允许正常访问
       
    }
}
2 基于 Referer 的过滤

防止爬虫通过非当前站点域名发出的访问请求。

复制代码
server {
    listen 80;
    server_name example.com;

    location / {

        #只允许来自指定域名的请求
        valid_referers none blocked example.com;
        if ($invalid_referer) {
            return 403;
        }

    }
}
3 限制ip访问频率

由于爬虫访问与人工访问频繁完全不相同,可通过 limit_req 模块限制每个 IP 的访问频率。

复制代码
http {
    limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s; # 每秒限制 5 次请求

    server {
        listen 80;
        server_name example.com;

        location / {
            limit_req zone=one burst=10; # 突发允许 10 次请求
            try_files $uri $uri/ =404;
        }
    }
}

小结

nginx功能非常强大,仅通过简单的配置可以防止一部分小爬虫,这一点非常方便,但需要注意的是只是防住小部分,要想进一步做防爬,一般还要在接口层拦截器配合前端调整。

相关推荐
qq762118223 分钟前
Linux c 在内存中创建zip,最后写入测试
linux·运维·服务器
故事很腻i21 分钟前
安装elk
运维·elk·jenkins
华纳云IDC服务商33 分钟前
网站服务器频繁掉线的主要原因是什么
运维·服务器
小黄人软件35 分钟前
【部署python网站】宝塔面板 小目标2:实时搜索网上资源文件网站放在服务器上 用AI做一个作品,不断迭代。
运维·服务器
未来之窗软件服务39 分钟前
服务器运维(四)服务器漏洞扫描工具与审查——东方仙化神期
运维·服务器·仙盟创梦ide·东方仙盟·东方仙盟运维
云飞云共享云桌面42 分钟前
SolidWorks服务器多人使用方案
大数据·运维·服务器·前端·网络·电脑·制造
你疯了抱抱我42 分钟前
【H3C NX30Pro】光猫桥接并使用OpenWRT配置NAS端口映射;配置IPv6、IPv4公网直连内网服务器;
运维·服务器·网络·智能路由器·路由器
liyugang20151 小时前
MySQL数据库性能优化的七个关键策略与实践
运维
IT成长日记6 小时前
【Nginx开荒攻略】Nginx虚拟主机配置:从域名、端口到IP的完整指南
linux·运维·服务器·nginx·虚拟主机
taxunjishu7 小时前
DeviceNet 转 Modbus TCP 协议转换在 S7-1200 PLC化工反应釜中的应用
运维·人工智能·物联网·自动化·区块链