疯狂的爬虫案例(2)文末附源码

软件版本号:

python --version

Python 3.8.0

pip show selenium

Version: 4.20.0

chromedriver.exe -version

109.0.5414.74

主题:爬取10条动态网页内容(电影票房)

1.根据xpath获取网页节点(Ctrl+F)

2.使用Console控制台打印节点内容,看是否是自己需要的内容

F12->$x('//title')

3.python代码获取,进行细微调整

python 复制代码
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time

# 配置WebDriver的路径(确保chromedriver的路径正确)
chrome_driver_path = 'C:/Users/Administrator/Downloads/Compressed/chromedriver_win32/chromedriver.exe'
# 初始化WebDriver:旧版本,会报错
# driver = webdriver.Chrome(executable_path=chrome_driver_path)
# 新版本
service = Service(chrome_driver_path)  
driver = webdriver.Chrome(service=service)

# 导航到目标网页
driver.get('https://piaofang.maoyan.com/dashboard/movie')

# 等待页面加载完成(根据需要调整等待时间)
time.sleep(5)

tbody = driver.find_element(By.XPATH, '//*[@id="app"]/div/div/div[2]/div[1]/div[2]/div/table/tbody')

rows = tbody.find_elements(By.TAG_NAME, 'tr')

i=1
for row in rows:
    title = row.find_element(By.XPATH, './td[1]/div/div[@class="moviename-desc"]/p[@class="moviename-name"]').text
    days = row.find_element(By.XPATH, './td[1]/div/div[@class="moviename-desc"]/p[@class="moviename-info"]/span[1]').text
    money = row.find_element(By.XPATH, './td[1]/div/div[@class="moviename-desc"]/p[@class="moviename-info"]/span[2]').text
    print(str(i) + '.' + title + ' [' + days + '] [票房' + money + ']')
    #print()  # 换行,表示一行结束    
    if i == 10:
        break;
    i+=1

# 关闭浏览器
driver.quit()

运行结果:

1.xxx 点映 票房5474.1万

2.xxx 上映32天 票房9.09亿

3.xxx 上映27天 票房7.71亿

4.xxx 上映31天 票房2.73亿

5.xxx 上映26天 票房5560.5万

6.xxx 上映27天 票房1.20亿

7.xxx 上映11天 票房1356.9万

8.xxx 上映39天 票房3.49亿

9.xxx 上映27天 票房1.00亿

10.xxx \[\] 票房127.2万

xxx会根据实际内容输出。

相关推荐
huangdong_1 分钟前
淘宝商品SKU图自动分类技术深度解析:从DOM解析到智能归档
开发语言·javascript·ecmascript
阿正的梦工坊3 分钟前
【Rust】12-借用检查器与非词法生命周期
开发语言·后端·rust
许彰午12 分钟前
30_Java Stream流操作全解
java·windows·python
qq_25183645722 分钟前
基于java Web网络订餐系统设计与实现 源码文档
java·开发语言·前端
秋928 分钟前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
凡人叶枫38 分钟前
Effective C++ 条款17:以独立语句将 newed 对象置入智能指针
java·linux·开发语言·c++·算法
飞天狗1111 小时前
零基础JavaWeb入门——第2课:让网页“活”起来 —— JSP是什么?
java·开发语言·前端·后端·web
2601_956319881 小时前
期货夜盘无人值守监控什么:断线、无成交与拒单信号
python·区块链
CTA终结者1 小时前
期货量化目标仓和净持仓对不齐:天勤 TargetPosTask 与 pos 偏差排查
python·区块链
科技林总1 小时前
解决vllm服务漏扫问题
python·安全