疯狂的爬虫案例(2)文末附源码

软件版本号:

python --version

Python 3.8.0

pip show selenium

Version: 4.20.0

chromedriver.exe -version

109.0.5414.74

主题:爬取10条动态网页内容(电影票房)

1.根据xpath获取网页节点(Ctrl+F)

2.使用Console控制台打印节点内容,看是否是自己需要的内容

F12->$x('//title')

3.python代码获取,进行细微调整

python 复制代码
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time

# 配置WebDriver的路径(确保chromedriver的路径正确)
chrome_driver_path = 'C:/Users/Administrator/Downloads/Compressed/chromedriver_win32/chromedriver.exe'
# 初始化WebDriver:旧版本,会报错
# driver = webdriver.Chrome(executable_path=chrome_driver_path)
# 新版本
service = Service(chrome_driver_path)  
driver = webdriver.Chrome(service=service)

# 导航到目标网页
driver.get('https://piaofang.maoyan.com/dashboard/movie')

# 等待页面加载完成(根据需要调整等待时间)
time.sleep(5)

tbody = driver.find_element(By.XPATH, '//*[@id="app"]/div/div/div[2]/div[1]/div[2]/div/table/tbody')

rows = tbody.find_elements(By.TAG_NAME, 'tr')

i=1
for row in rows:
    title = row.find_element(By.XPATH, './td[1]/div/div[@class="moviename-desc"]/p[@class="moviename-name"]').text
    days = row.find_element(By.XPATH, './td[1]/div/div[@class="moviename-desc"]/p[@class="moviename-info"]/span[1]').text
    money = row.find_element(By.XPATH, './td[1]/div/div[@class="moviename-desc"]/p[@class="moviename-info"]/span[2]').text
    print(str(i) + '.' + title + ' [' + days + '] [票房' + money + ']')
    #print()  # 换行,表示一行结束    
    if i == 10:
        break;
    i+=1

# 关闭浏览器
driver.quit()

运行结果:

1.xxx [点映] [票房5474.1万]

2.xxx [上映32天] [票房9.09亿]

3.xxx [上映27天] [票房7.71亿]

4.xxx [上映31天] [票房2.73亿]

5.xxx [上映26天] [票房5560.5万]

6.xxx [上映27天] [票房1.20亿]

7.xxx [上映11天] [票房1356.9万]

8.xxx [上映39天] [票房3.49亿]

9.xxx [上映27天] [票房1.00亿]

10.xxx [] [票房127.2万]

xxx会根据实际内容输出。

相关推荐
skaiuijing21 分钟前
Sparrow系列拓展篇:消息队列和互斥锁等IPC机制的设计
c语言·开发语言·算法·操作系统·arm
雯0609~2 小时前
c#:winform调用bartender实现打印(学习整理笔记)
开发语言·c#
胜天半子_王二_王半仙3 小时前
c++源码阅读__smart_ptr__正文阅读
开发语言·c++·开源
沐泽Mu3 小时前
嵌入式学习-C嘎嘎-Day08
开发语言·c++·算法
Non importa3 小时前
汉诺塔(hanio)--C语言函数递归
c语言·开发语言·算法·学习方法
LinuxST3 小时前
27、基于Firefly-rk3399中断休眠唤醒实验(按键中断)
linux·开发语言·stm32·嵌入式硬件
Tony_long74833 小时前
Python学习——猜拳小游戏
开发语言·python·学习
跳动的梦想家h3 小时前
黑马点评 秒杀下单出现的问题:服务器异常---java.lang.NullPointerException: null(已解决)
java·开发语言·redis
ac-er88884 小时前
PHP 二分法查找算法
开发语言·算法·php
陈苏同学4 小时前
机器翻译 & 数据集 (NLP基础 - 预处理 → tokenize → 词表 → 截断/填充 → 迭代器) + 代码实现 —— 笔记3.9《动手学深度学习》
人工智能·pytorch·笔记·python·深度学习·自然语言处理·机器翻译