技术性屏蔽百度爬虫已经一周了!

很久前明月就发现百度爬虫只抓取、只收录就是不给流量了,加上百度搜索体验越来越差,反正明月已经很久没有用过百度搜索,目前使用的浏览器几乎默认搜索都已经修改成其他搜索引擎了,真要搜索什么,一般都是必应+谷歌结合着使用。所以就一直在纠结要不好屏蔽百度爬虫,上周借助 CloudFlare 的【随机加密】先技术性的屏蔽百度爬虫了。

说起来比较好笑都 2024 年了,早就号称支持 HTTPS 的百度爬虫竟然不支持【随机加密 】(可参考【使用 CloudFlare 后百度抓取诊断抓取失败的解决办法】一文),就是这么神奇!

所以我这个所谓的技术性屏蔽百度爬虫说白了就是开启【随机加密】,让百度的爬虫抓取出现报错,今天又继续在 robots.txt 里屏蔽百度爬虫:

复制代码
User-agent: Baiduspider
Disallow: / 
User-agent: Baiduspider-image
Disallow: /

说实话,百度爬虫真的很 low,既然你都不给我流量,我也就没有"供养"你的必要了,反正我现在的感觉就是百度爬虫一直在利用网站养他的 AI,这是我不能接受的,所以必须屏蔽拦截掉。

相关推荐
APIshop9 小时前
Python 爬虫获取 item_get_web —— 淘宝商品 SKU、详情图、券后价全流程解析
前端·爬虫·python
AC赳赳老秦11 小时前
Python 爬虫进阶:DeepSeek 优化反爬策略与动态数据解析逻辑
开发语言·hadoop·spring boot·爬虫·python·postgresql·deepseek
泡泡以安14 小时前
【爬虫教程】第7章:现代浏览器渲染引擎原理(Chromium/V8)
java·开发语言·爬虫
Dragon水魅14 小时前
Fandom Wiki 网站爬取文本信息踩坑实录
爬虫·python
Benny的老巢17 小时前
基于Playwright TypeScript/JavaScript的API调用爬虫成熟方案
javascript·爬虫·typescript·自动化·agent·playwright
搂着猫睡的小鱼鱼18 小时前
基于Python的淘宝评论爬虫
开发语言·爬虫·python
嫂子的姐夫20 小时前
010-sha1+base64:爬虫练习网站
爬虫·python·逆向
泡泡以安20 小时前
【爬虫教程】第6章:DNS解析优化与代理池架构
爬虫·架构
小白学大数据21 小时前
Redis 在定时增量爬虫中的去重机制与过期策略
开发语言·数据库·redis·爬虫
嫂子的姐夫21 小时前
012-AES加解密:某勾网(参数data和响应密文)
javascript·爬虫·python·逆向·加密算法