主流反爬虫手段

这题我会,主流反爬虫手段

①检测浏览器环境动态生成cookie(瑞数)

②验证码(极验,顶象)

③js混淆或加密,obfuscator的js混淆,wasm加密,jsvmp(js虚拟机)

④字体反爬,CSS反爬,雪碧图

⑤tls指纹检查 只要肯花钱,不是随便起个无头浏览器就可以爬走数据

另外爬虫会用代理,所以封ip没用而且很容易误伤

6.防爬技术叫蜜罐,在常见的链接中放一个url,页面看不到,但是爬虫能拿到,访问这个url的直接封

以此类推,多搞一些网页看不到但是爬虫能拿到的内容。 或者直接参考起点,搞几套自己的字符集,爬虫拿到的就是乱码,除非有正确的解码方式。

7.记录鼠标轨迹和停留时间,如果是直接访问url的做频率限制或禁止访问就好了。 如果有前置入口页面,可以记录前一个页面的鼠标轨迹和停留时间,类似登陆页面的具体细节拖动验证码机制。 细节上可以增加获取浏览器指纹确保客户在浏览器环境。获取登陆页面的浏览器指纹,验证和被抓取的页面环境是否一致。

设置轨迹偏移量还有停留时间搞范围随机就行了

相关推荐
一个天蝎座 白勺 程序猿14 小时前
Python爬虫(53)Python爬虫数据清洗与分析实战:Pandas+Great Expectations构建可信数据管道
爬虫·python·pandas
weixin_3776348415 小时前
【python异步多线程】异步多线程爬虫代码示例
开发语言·爬虫·python
广州正荣17 小时前
Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强:基于微服务与容器化的解决方案
人工智能·爬虫·科技
饼干哥哥17 小时前
2025AI爬虫新范式:4大实用AI工具,实现一句话完成网站数据爬取
爬虫·数据分析
朱颜辞镜花辞树‎1 天前
Go爬虫开发学习记录
爬虫·学习·golang
月忆3641 天前
等待组(waitgroup)
前端·爬虫·python
华科云商xiao徐2 天前
Python多线程数据爬取程序模版
爬虫·python
华科云商xiao徐2 天前
Java使用Jsoup库实现通用爬虫
java·爬虫
q567315232 天前
分布式增量爬虫实现方案
开发语言·分布式·爬虫·python
华科云商xiao徐2 天前
Java HttpClient实现简单网络爬虫
java·爬虫