爬虫学习4:爬取王者荣耀技能信息

爬虫:爬取王者荣耀技能信息(代码和代码流程)

代码

python 复制代码
# 王者荣耀英雄信息获取
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
if __name__ == '__main__':
    fp = open("./honorKing.txt", "w", encoding='utf8')
    # 1、url
    url = "https://pvp.qq.com/web201605/herolist.shtml"#页面url
    # 2、发送请求
    driver = webdriver.Edge()#采用edge浏览器
    driver.get(url)#获取url
    time.sleep(3)#防止被检测到爬虫爬取
    # 3、获取想要的信息
    # 获取页面信息
    # driver.page_source
    # 4、数据解析
    li_list = driver.find_elements(By.XPATH, "//ul[@class='herolist clearfix']/li")#获取所有的li
    hero_url_list = []#存储所有的跳转url数据
    for li in li_list:
        hero_url = li.find_element(By.XPATH, "a").get_attribute("href")#跳转的url
        hero_url_list.append(hero_url)
    # 句柄的问题  先把所有第一个页面的东西存起来
    for url in hero_url_list:
        time.sleep(3)#防止被检测到爬虫爬取
        driver.get(url)
        hero_name = driver.find_element(By.XPATH, "//h2[@class='cover-name']").text
        div_list = driver.find_elements(By.XPATH, "//div[@class='skill-show']/div")# 拿到所有的技能信息
        fp.write(hero_name + "\n")#写入角色名称
        for div in div_list:
            js = f'document.getElementsByClassName("show-list")[{div_list.index(div)}].style.display="block"'#解除技能信息被锁
            driver.execute_script(js)
            skill_name = div.find_element(By.XPATH, "p[1]/b").text
            skill_desc = div.find_element(By.XPATH, "p[2]").text
            fp.write(skill_name + "---->" + skill_desc + "\n")
            print(skill_name, skill_desc)
        # 只爬两个看看样例
        # if hero_url_list.index(url) == 1:
        #     break
    driver.close()

代码流程:

复制代码
#### 获取页面的url

跳转到下一界面的url

找到希望得到的数据的位置

采用:f'document.getElementsByClassName("show-list")[{被锁位置}].style.display="block"',将不能同时出现的数据同时出现


相关推荐
知识分享小能手4 小时前
React学习教程,从入门到精通, React 属性(Props)语法知识点与案例详解(14)
前端·javascript·vue.js·学习·react.js·vue·react
luckys.one4 小时前
第9篇:Freqtrade量化交易之config.json 基础入门与初始化
javascript·数据库·python·mysql·算法·json·区块链
大翻哥哥6 小时前
Python 2025:量化金融与智能交易的新纪元
开发语言·python·金融
zhousenshan7 小时前
Python爬虫常用框架
开发语言·爬虫·python
茯苓gao7 小时前
STM32G4 速度环开环,电流环闭环 IF模式建模
笔记·stm32·单片机·嵌入式硬件·学习
是誰萆微了承諾7 小时前
【golang学习笔记 gin 】1.2 redis 的使用
笔记·学习·golang
IMER SIMPLE7 小时前
人工智能-python-深度学习-经典神经网络AlexNet
人工智能·python·深度学习
CodeCraft Studio8 小时前
国产化Word处理组件Spire.DOC教程:使用 Python 将 Markdown 转换为 HTML 的详细教程
python·html·word·markdown·国产化·spire.doc·文档格式转换
DKPT8 小时前
Java内存区域与内存溢出
java·开发语言·jvm·笔记·学习
aaaweiaaaaaa8 小时前
HTML和CSS学习
前端·css·学习·html