爬虫案例一

首先我举一个案例比如豆瓣电影排行榜 (douban.com)这个电影,首先我们进去检查源代码

说明源代码有,说明是服务器渲染,可以直接那html

但是返回的结果是空,所以我们需要在头里面加上User-Agent

然后可以看到有返回的结果,如果想拿到其中的名字这时候就要用re正则来进行匹配

然后这是自己写的正则,可能写的不够好

结果爬出来了

如果想拿到这3个信息,如何写呢

这是我写的re正则,看结果

如果我们像吧他们存放去了,可以导入csv包只是方便分析而已

结果

相关推荐
川石课堂软件测试40 分钟前
CSS中常用的几种定位。
开发语言·css·python·网络协议·http·html·pytest
Amazon数据采集41 分钟前
🚀 Pangolin Scrape API实战指南:从0到1构建高性能亚马逊数据采集系统
爬虫·自动化运维
C.R.xing44 分钟前
Pyspark分布式访问NebulaGraph图数据库
数据库·分布式·python·pyspark·nebulagraph
我是华为OD~HR~栗栗呀1 小时前
华为OD-21届考研-Java面经
java·前端·c++·python·华为od·华为·面试
松果集1 小时前
【2】数据结构·序列构成的数组
python
局外人LZ1 小时前
django rest framework:从零开始搭建RESTful API
python·django·restful·drf
㏕追忆似水年华あ1 小时前
逻辑600解析本03
python·flask
AndrewHZ1 小时前
【图像处理基石】遥感图像高度信息提取:Python实战全流程+常用库汇总
图像处理·人工智能·python·计算机视觉·cv·遥感图像·高程信息
盼哥PyAI实验室2 小时前
序列的力量——Python 内置方法的魔法解密
java·前端·python
Rhys..2 小时前
POM思想的理解与示例
前端·javascript·python·html·pom