Selenium Chrome Webdriver 如何获取 Youtube 悬停文本

导语

Youtube 是一个非常流行的视频分享平台，有时候我们可能想要爬取一些视频的信息，比如标题、播放量、点赞数等。但是有些信息并不是直接显示在网页上的，而是需要我们将鼠标悬停在某个元素上才能看到，比如视频的时长、上传时间等。这些信息被称为悬停文本，它们是通过 JavaScript 动态生成的，所以我们不能用普通的 HTML 解析方法来获取它们。那么，我们该如何用爬虫来获取 Youtube 的悬停文本呢？本文将介绍一种方法，使用 Selenium Chrome Webdriver 来模拟浏览器操作，获取 Youtube 的悬停文本。

正文

概述

Selenium 是一个自动化测试工具，它可以控制浏览器进行各种操作，比如打开网页、输入文字、点击按钮等。Selenium 支持多种浏览器和编程语言，其中 Chrome Webdriver 是用于控制 Chrome 浏览器的驱动程序。我们可以使用 Selenium Chrome Webdriver 来模拟人类的浏览行为，获取 Youtube 的悬停文本。

亮点

使用 Selenium Chrome Webdriver 的优点有：

可以获取动态生成的网页内容，不受 JavaScript 的限制
可以模拟鼠标悬停、滚动、点击等操作，更接近真实的用户体验
可以设置代理服务器，突破网站的反爬机制
可以设置浏览器选项，如无头模式、隐身模式等，提高爬虫效率和安全性

案例

下面我们来看一个具体的案例，如何使用 Selenium Chrome Webdriver 来获取 Youtube 的悬停文本。我们以 https://www.youtube.com/watch?v=5qap5aO4i9A 这个视频为例，它是一个很受欢迎的音乐直播视频，我们想要获取它的标题、播放量、点赞数、时长和上传时间。

首先，我们需要导入必要的库和模块，如 Selenium、Chrome Webdriver 等：

python 复制代码

# 导入必要的库和模块
from selenium import webdriver # 导入 Selenium 库
from selenium.webdriver.common.by import By # 导入 By 类
from selenium.webdriver.support.ui import WebDriverWait # 导入 WebDriverWait 类
from selenium.webdriver.support import expected_conditions as EC # 导入 expected_conditions 模块
from selenium.webdriver.common.action_chains import ActionChains # 导入 ActionChains 类
import time # 导入 time 模块

然后，我们需要设置代理服务器，这里我们使用亿牛云提供的代理服务器：

python 复制代码

# 亿牛云 爬虫加强版 设置代理服务器
proxyHost = "www.16yun.cn" # 代理服务器域名或 IP 地址
proxyPort = "31111" # 代理服务器端口号
 
# 代理验证信息
proxyUser = "16YUN" # 代理用户名
proxyPass = "16IP" # 代理密码

# 构造代理认证字符串
proxyAuth = proxyUser + ":" + proxyPass

# 构造 Chrome 选项对象
chrome_options = webdriver.ChromeOptions()

# 添加代理扩展
chrome_options.add_extension("Proxy-Auto-Auth_v2.0.crx")

# 添加代理认证参数
chrome_options.add_argument("--proxy-server=http://" + proxyHost + ":" + proxyPort)
chrome_options.add_argument("--proxy-auth=" + proxyAuth)

接下来，我们需要创建一个 Chrome Webdriver 对象，并打开目标网页：

python 复制代码

# 创建 Chrome Webdriver 对象
driver = webdriver.Chrome(options=chrome_options)

# 打开目标网页
driver.get("https://www.youtube.com/watch?v=5qap5aO4i9A")

然后，我们需要等待网页加载完成，并找到我们想要获取的元素：

python 复制代码

# 等待网页加载完成
wait = WebDriverWait(driver, 10) # 设置最长等待时间为 10 秒
wait.until(EC.presence_of_element_located((By.ID, "container"))) # 等待 id 为 container 的元素出现

# 找到视频标题元素
title = driver.find_element_by_xpath("//h1/yt-formatted-string") # 使用 XPath 定位视频标题元素

# 找到视频播放量元素
views = driver.find_element_by_xpath("//div[@id='info']/div[@id='info-text']/ytd-video-view-count-renderer/span[@class='view-count style-scope ytd-video-view-count-renderer']") # 使用 XPath 定位视频播放量元素

# 找到视频点赞数元素
likes = driver.find_element_by_xpath("//div[@id='top-level-buttons']/ytd-toggle-button-renderer[1]/a/yt-formatted-string") # 使用 XPath 定位视频点赞数元素

# 找到视频时长元素
duration = driver.find_element_by_xpath("//div[@id='movie_player']/div[@class='ytp-chrome-bottom']/div[@class='ytp-chrome-controls']/div[@class='ytp-left-controls']/span[@class='ytp-time-duration']") # 使用 XPath 定位视频时长元素

# 找到视频上传时间元素
upload_time = driver.find_element_by_xpath("//div[@id='date']/yt-formatted-string") # 使用 XPath 定位视频上传时间元素

接着，我们需要模拟鼠标悬停在视频时长和上传时间元素上，才能获取它们的文本：

python 复制代码

# 模拟鼠标悬停在视频时长元素上
action1 = ActionChains(driver) # 创建 ActionChains 对象
action1.move_to_element(duration) # 移动鼠标到视频时长元素上
action1.perform() # 执行操作

# 模拟鼠标悬停在视频上传时间元素上
action2 = ActionChains(driver) # 创建 ActionChains 对象
action2.move_to_element(upload_time) # 移动鼠标到视频上传时间元素上
action2.perform() # 执行操作

最后，我们可以获取各个元素的文本，并打印出来：

python 复制代码

# 获取各个元素的文本
title_text = title.text # 获取视频标题文本
views_text = views.text # 获取视频播放量文本
likes_text = likes.text # 获取视频点赞数文本
duration_text = duration.get_attribute("aria-label") # 获取视频时长文本，注意这里要用 get_attribute 方法，因为 aria-label 是一个属性，不是一个子节点
upload_time_text = upload_time.get_attribute("aria-label") # 获取视频上传时间文本，同理

# 打印各个元素的文本
print("标题：", title_text)
print("播放量：", views_text)
print("点赞数：", likes_text)
print("时长：", duration_text)
print("上传时间：", upload_time_text)

运行上面的代码，我们可以得到如下的输出：

复制代码

标题： lofi hip hop radio - beats to relax/study to
播放量： 3.8亿次观看
点赞数： 1000万次赞同
时长： 视频长度 0:00 / 0:00。
上传时间： 已于 2020年2月22日发布。

结语

通过这个案例，我们可以看到，使用 Selenium Chrome Webdriver 来获取 Youtube 的悬停文本是一种可行的方法，它可以让我们获取动态生成的网页内容，模拟真实的用户行为，突破网站的反爬机制。当然，这种方法也有一些缺点，比如需要安装浏览器和驱动程序，运行速度运行相对较慢，占用较多的系统资源等。因此，我们需要根据不同的爬虫需求，选择合适的爬虫工具和方法。如果你想了解更多关于 Selenium Chrome Webdriver 的用法和技巧，你可以访问官方网站 https://www.selenium.dev/ 参考一些优秀的教程。希望这篇文章对你有帮助，如果你有任何问题或建议，欢迎留言评论。谢谢你的阅读和支持！