华为云WAF，开启web网站的专属反爬虫防护罩

背景

从保护原创说起

作为一个原创技术文章分享博主，日常除了Codeing就是总结Codeing中的技术经验。

之前并没有对文章原创性的保护意识，直到在某个非入驻的平台看到了我的文章，才意识到，辛苦码字、为灵感反复试验创作出来的文章，被别人轻轻松松的用爬虫就爬走了。

除了原创保护的困扰，还在工作中遇到过类似的爬虫困扰。比如之前做的一个商品的榜单，也是遭到了大量爬虫的恶意爬取，未经授权使用我们的数据，且占用我们的带宽。

反爬虫的Plan A 和 Plan B

Plan A：自制反爬虫策略

之前借鉴过别人的反爬虫策略，比如SVG映射、数字映射、IP限制等。

奋码疾敲了很久，将主流的反爬虫策略实现了一遍，结果，还是有爬虫能跳过这些机制。

费事费力费心神，结果收效审问。

Plan B ：Web应用防火墙

既然我们的电脑有防火墙，帮助产生一道保护屏障，那么Web应用是不是也可以通过防火墙隔离爬虫的爬取呢？

我找了一下，发现华为云还真的提供了此类防护------WAF。

于是我果断选择了Plan B，也不由感慨一句：

华为云了解越多，技术之路走的越宽。

WAF

初步了解

WAF是Web应用防火墙的缩写，是华为云提供的对网站业务流量进行多维度检测和防护。

Web应用防火墙（Web Application Firewall， WAF），通过对HTTP(S)请求进行检测，识别并阻断SQL注入、跨站脚本攻击、网页木马上传、命令/代码注入、文件包含、敏感文件访问、第三方应用漏洞攻击、CC攻击、恶意爬虫扫描、跨站请求伪造等攻击，保护Web服务安全稳定。

深入了解

仔细研究了一下WAF的产品优势和使用场景，发现除了我目前比较需要的防爬虫的功能，其实WAF提供的大部分功能，作为一个前端开发者，都或多或少用的上。

比如防网页篡改，在刚入行的时候，就学习过如何预防xss攻击和CSRF攻击。

再比如秒杀防护，对于电商类网站，十分友好。我们现在做活动，每次都会进行压测。

此外，WAF还提供了内容安全检测功能，可以帮助减少人为的疏忽。

这样一来，使用WAF，相当于用了一份的成本精力，同时获得了多份的防护。

想要进一步了解WAF，可查看官方介绍。

反爬虫防护策略配置实战

前置条件

域名接入WAF

防护策略配置前，需要将域名接入WAF。具体的接入步骤，可以按照《添加防护域名（云模式）》提供的流程，写的很详细。

JS脚本反爬虫条件列表

在添加排除请求规则时，需要添加条件列表。

以下为添加条件列表的参数说明，可以结合参数说明，根据实际需求设计条件列表。

|------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------|
| 参数 | 参数说明 | 示例 |
| 规则名称 | 自定义规则名称。 | waf |
| 规则描述 | 可选参数，设置该规则的备注信息。 | - |
| 生效时间 | 立即生效。 | 立即生效 |
| 条件列表 | 条件设置参数说明如下： * 字段：在下拉列表中选择需要防护的字段，当前仅支持"路径"、"User Agent"。 * 子字段 * 逻辑：在"逻辑"下拉列表中选择需要的逻辑关系。 * 内容：输入或者选择条件匹配的内容。创建引用表的详细操作请参见创建引用表。 | "路径"包含"/admin/" |
| 优先级 | 设置该条件规则检测的顺序值。如果您设置了多条规则，则多条规则间有先后匹配顺序，即访问请求将根据您设定的优先级依次进行匹配，优先级较小的规则优先匹配。 | 5 |

我目前需要的条件列表如下：

|------|------|--------------|-----|
| 规则名称 | 生效时间 | 条件列表 | 优先级 |
| fpc | 立即生效 | 路径：/activity | 5 |