爬虫技术初步自学

目的

本篇文章实际上自学爬虫技术的学习一份学习笔记,希望可以对后学的小白起到帮助,也希望得到大佬的指点,若有错漏希望大佬指出。

初步认知

爬虫实际上是一个计算机程序。开发爬虫程序的常用语言是Python。(Python我已经在五六年前就感觉很火热了,感觉这个语言应该非常好用,后续要提上学习计划了。)

它的行为看起来就像是蜘蛛在网上面爬行一样,顺着互联网这个"网",一条线一条线地"爬行"。所以爬虫在英文中又叫作"Spider",正是蜘蛛这个单词。(Spider man就是蜘蛛侠了,说不定爬虫技术到高深处做好事的话咱也是一名行走在夜之城的侠客也未可知啊)

主要是用于爬取网站的数据,并且效率极高,比起人工收集数据的效率高出很多倍。

爬虫技术的应用

数据收集

由于网页模板大多都是一样的,所以针对一个页面写出了一个爬虫程序就可以通过这个程序获取大量相同的网页数据。

刷流量和秒杀活动

刷流量是爬虫天然自带的功能。当爬虫访问了一个网站时,如果这个爬虫隐藏得很好,网站不能识别这一次访问来自于爬虫,那么就会把它当成正常访问。于是,爬虫就"不小心"地刷了网站的访问量。除了刷流量外,爬虫也可以参与各种秒杀活动,包括但不限于在各种电商网站上抢商品等等。(我想着现在这种防止爬虫的技术基本上大厂的网站已经做过很好的防护程序了,就算要用也只能去小地方看看了

参考文章:

链接: 何为爬虫技术(感谢大佬的技术分享)

相关推荐
深蓝电商API15 小时前
爬虫界的 “核武器”:Splash + Scrapy 动态渲染终极方案
爬虫·scrapy·splash
Z***G47921 小时前
网络爬虫学习:借助DeepSeek完善爬虫软件,实现模拟鼠标右键点击,将链接另存为本地文件
爬虫·学习·计算机外设
烤汉堡1 天前
Python入门到实战:post请求+cookie+代理
爬虫·python
e***19351 天前
爬虫学习 01 Web Scraper的使用
前端·爬虫·学习
Hacker_Oldv1 天前
Python技能进阶:探索Selenium库,实现网页自动化测试与爬虫
自动化测试·软件测试·爬虫·python·selenium·职场和发展
l***77521 天前
开源的不需要写代码的爬虫maxun
爬虫·开源
ImAlex1 天前
IPIDEA代理IP深度测评:构建智能体知识库的得力助手
爬虫·agent
第二只羽毛1 天前
遵守robots协议的友好爬虫
大数据·爬虫·python·算法·网络爬虫
YongCheng_Liang1 天前
深度解析:GitHub API 爬虫工具 —— 自动化获取热门 / 推荐开源项目
爬虫·自动化·github
ycydynq2 天前
自动化验证码实现
爬虫·自动化