网站被人疯狂爬了 1.5TB 流量

我刚上线了一个小网站:skills.lc

本来只是想做一个简单的 AI skills / agent skills 的索引站,方便大家查找各种 skills。

网站上线之后其实没怎么宣传,就在几个地方随便发了一下。

结果三天后,我突然发现服务器流量不太对劲。

流量直接爆了

看了一下最近几天的流量统计:

复制代码
1.09 TB1.21 TB1.47 TB1.57 TB

我第一反应是:

不会吧?难道火了?

但冷静想想,这网站用户量不足产生这么大的流量。

再仔细看日志,发现事情不太对。

原来是被人疯狂下载

服务器日志里基本全是 curl 请求:

css 复制代码
Time: 2026/3/13 15:09:26Source: downloadUser Agent: curl/7.87.0IP: 50.7.250.66

还有另一个:

css 复制代码
Time: 2026/3/13 14:13:46Source: downloadUser Agent: curl/8.16.0IP: 121.237.245.164

这两个 IP 基本在 不停下载网站资源

而且方式非常简单粗暴:

bash 复制代码
curl https://skills.lc/xxxcurl https://skills.lc/xxxcurl https://skills.lc/xxx

就是一条一条扫。

最离谱的是

我这个网站其实是一个 技能列表索引

里面很多资源其实都是公开的 GitHub 内容。

但对方没有直接去 GitHub 拉。

而是:

从我的服务器反复下载。

于是就出现了一个很魔幻的情况:

我成了一个 免费 CDN

别人疯狂 pull 数据,

而我疯狂烧服务器流量。

为什么有人会这么干?

我猜可能有几种原因:

1 爬全站做镜像

很多人做 AI 工具站的时候,会先把别人网站的数据全爬下来。

2 训练数据

AI 时代很多人会疯狂抓数据。

3 做聚合站

有些 bot 就是全网扫。

目前已经锁定两个 IP

复制代码
50.7.250.66(香港ip)121.237.245.164(江苏南京)

User-Agent:

复制代码
curl/7.87.0curl/8.16.0

基本可以确定是脚本。

准备做的几个防护

接下来准备做几件事情:

1 IP 限速

同一个 IP 每分钟限制请求数。

2 Cloudflare 防护

开启 bot fight。

3 下载接口加 token

避免直接 curl。

4 robots + WAF

防止简单爬虫。

做独立站的一个现实

以前总觉得:

网站没人访问是最大问题。

现在发现:

网站刚上线,被爬才是最大问题。

很多爬虫比用户来的还快。

一个小感慨

互联网其实很有意思。

你刚做了个小工具站,

还没来得及推广,

就已经有人在默默复制你的数据了。

如果你也做过类似的站,

有没有遇到这种情况?

最后对南京和香港的那2位朋友说一声,如果你真想要我网站的数据,来收购我网站就行呀,省得让我产生天价流量费账单

相关推荐
ltl5 分钟前
位置编码:为什么需要它,为什么用正弦
后端
明月_清风11 分钟前
Go 函数设计的工程智慧:多返回值、闭包与那些"反直觉"的选择
后端·go
却尘15 分钟前
一个 `&` 引发的血案:改完配置 pipeline 装聋作哑,顺便重学了 Python/Go/Java
后端·go
倚栏听风雨19 分钟前
Spring AI 实战:用 JdbcChatMemory + MySQL 给 AI 接上「长期记忆」
后端
我叫黑大帅1 小时前
最简单的生产-消费者,你都会遇到哪些问题?
后端·面试·go
swipe2 小时前
Agentic RAG:用 LangGraph 构建会路由、会纠错、会收敛的闭环 RAG
后端·langchain·llm
折哥的程序人生 · 物流技术专研2 小时前
《Java 100 天进阶之路》第23篇:缓冲区数据结构 ByteBuffer
java·开发语言·数据结构·后端·面试·求职招聘
还是鼠鼠3 小时前
AI掘金头条新闻系统 (Toutiao News)-获取新闻分类
后端·python·mysql·fastapi·web
超梦dasgg3 小时前
Spring Security 原理 + 生产环境认证授权实战
java·后端·spring
东方小月3 小时前
Claude Code Skill 完全指南:一个 markdown 文件,就是一个专家分身
前端·后端