做网站最头疼的就是被爬虫疯狂采集:服务器卡顿、流量暴增、原创内容被秒搬。这篇博客用最直白的话,教你快速搞定防爬。
一、先判断:你是不是被爬了
出现这些情况,基本就是爬虫在搞事:
- 后台日志大量高频请求,几秒刷几十次
- 同一 IP 疯狂翻页、无停留、无鼠标行为
- 流量异常飙升,CPU / 带宽占满
- 原创内容几分钟就出现在其他站点
二、5 分钟快速上手(低成本优先)
1. 限流 + IP 管控(最有效)
限制单 IP 访问频率,超过就返回 429 或临时封禁。
- Nginx 直接配置限流规则
- 云服务器直接用安全组 / CDN 封禁高频 IP
- 屏蔽境外代理 IP 段、数据中心 IP
2. User-Agent + 请求头过滤
拦截明显是爬虫的 UA,比如 Python-requests、HttpClient、Scrapy。
- 禁止无 UA、空 UA 访问
- 白名单只放行正规搜索引擎
3. 关键页面加人机验证
登录、查询、列表页加滑块 / 无感验证,普通爬虫直接卡住。
- 优先用无感验证,不影响真实用户
4. 动态加载 + 数据加密
- 核心内容用 JS 异步渲染,不写死在 HTML 里
- 接口加时效 Token、签名校验
- 敏感字段前端混淆展示
5. 上 WAF/Web 防火墙
这是最省心的方案:
- 自动识别 BOT / 爬虫
- 智能拦截高频、异常行为
- 支持 CC 防护、人机验证、IP 策略
三、给站长的建议
- 先堵流量,再优化体验:优先限流 + WAF,快速止损
- 别误伤 SEO:白名单放行 Google、百度等正规爬虫
- 多层防御:限流 + UA + 动态 + WAF 组合,比单一手段强 10 倍
- 保留证据:日志留存,必要时可法律维权
四、总结
防爬虫不用搞太复杂,限流 + WAF + 人机验证 三件套,就能挡住 90% 以上的恶意采集。先快速落地,再逐步升级,服务器和内容都能保住。