Python selenium模块简介

视频版教程:一天掌握python爬虫【基础篇】 涵盖 requests、beautifulsoup、selenium

有些网站的数据是js动态渲染的,我们无法通过网页源码直接找到数据,只能通过找接口方式来获取数据,但是很多时候,数据又是json格式的,给我们爬数据增加成本。

比如 CSDN - 专业开发者社区 这个网站 就是js动态渲染的首页数据。

这时候,使用selenium,我们可以通过模拟真实浏览器的用户操作行为,来获取js动态渲染后的网页数据,在进行解析网页,获取我们需要的数据。能大大提高我们的抓取效率。

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla FirefoxSafariGoogle ChromeOperaEdge等。

我们使用Selenium,模拟浏览器功能,自动执行网页中的js代码,实现动态加载,然后再进行数据抓取。

测试代码:

python 复制代码
import requests

url = "https://www.csdn.net/"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}

r = requests.get(url=url, headers=headers)

# 设置返回对象的编码
r.encoding = "utf-8"

print(r.text)

运行发现,返回结果里面找不到我们需要的资讯数据。

相关推荐
合作小小程序员小小店16 分钟前
基于可视化天气系统demo,基于python+ matplotlib+request爬虫,开发语言python,数据库无,10个可视化界面,需要的可以了联系。
开发语言·爬虫·python·matplotlib
倔强青铜三26 分钟前
苦练Python第71天:一行代码就搭出服务器?别眨眼,http.server真有这么爽!
人工智能·python·面试
倔强青铜三28 分钟前
苦练Python第70天:征服网络请求!揭开urllib.request的神秘面纱
人工智能·python·面试
倔强青铜三29 分钟前
苦练Python第72天:colorsys 模块 10 分钟入门,让你的代码瞬间“好色”!
人工智能·python·面试
胖哥真不错1 小时前
Python基于PyTorch实现多输入多输出进行BP神经网络回归预测项目实战
pytorch·python·毕业设计·论文·毕设·多输入多输出·bp神经网络回归预测
合作小小程序员小小店2 小时前
web网页开发,旧版在线%考试,判题%系统demo,基于python+flask+随机分配考试题目,基于开发语言python,数据库mysql
开发语言·后端·python·mysql·flask·html5
深蓝电商API2 小时前
反反爬虫实战:手撕某知名网站Webpack加密的JavaScript
javascript·爬虫·webpack
dalalajjl2 小时前
爱派(AiPy):一个让大语言模型直接操作Python完成任务
python
景彡先生3 小时前
Python matplotlib详解:从入门到精通,数据可视化利器
python·信息可视化·matplotlib
程序员大雄学编程3 小时前
用Python来学微积分22-费马定理
人工智能·python·数学·微积分