Python爬虫爬取王者荣耀英雄信息并保存到图数据库

爬取信息说明

  1. 英雄名称
  2. 英雄类型
  3. 英雄包含的所有皮肤名称

创建英雄类型节点

王者荣耀官方给出的英雄类型是以下几种:

直接准备好英雄类型词典

python 复制代码
hero_type_dict = [
    '战士', '法师', '坦克', '刺客', '射手', '辅助'
]

添加到图数据库中

python 复制代码
def create_hero_type_node():
    for hero_type in hero_type_dict:
        cypher = "MERGE (n:HeroType{label: '" + hero_type + "'})"
        graph.run(cypher).data()
    print('创建英雄类型节点成功')

创建英雄信息节点

获取英雄信息

python 复制代码
def get_hero_info_list():
    # 英雄的全部信息的url
    hero_info = 'https://pvp.qq.com/web201605/js/herolist.json'
    # 获取英雄的全部信息
    response = requests.get(hero_info)
    # 转为字典格式
    hero_info_dict = json.loads(response.text)
    return hero_info_dict

打印的内容如下:

这里需要注意的是,部分英雄包含两个英雄类别。

保存英雄信息

python 复制代码
def create_hero_node():
    hero_info_dict = get_hero_info_list()
    # 1战士 2法师 3坦克 4刺客 5射手 6辅助
    for hero in hero_info_dict:
        # print(hero)
        # print(str(hero.get('cname')) + '===' + str(hero_type[hero.get('hero_type')-1]) + '===' + str(hero.get('skin_name')))
        hero_type_list = [str(hero_type_dict[hero.get('hero_type') - 1])]
        if '|' in str(hero.get('skin_name')):
            skin_name_list = hero.get('skin_name').split('|')
        else:
            skin_name_list = [hero.get('skin_name')]
        if 'hero_type2' in str(hero):
            hero_type_list.append(str(hero_type_dict[hero.get('hero_type2') - 1]))
        # 创建英雄信息节点
        hero_cypher = "MERGE (n:Hero{label: '" + str(hero.get('cname')) + "'})"
        graph.run(hero_cypher).data()
        # 创建英雄->类型关系
        for hero_type in hero_type_list:
            cypher_rel = "MATCH(h:Hero{label:'" + str(
                hero.get('cname')) + "'}),(t:HeroType{label:'" + hero_type + "'}) MERGE (h)-[r:类型]->(t) RETURN h,r,t"
            graph.run(cypher_rel).data()

        for skin_name in skin_name_list:
            # 创建英雄皮肤节点
            cypher = "MERGE (n:Skin{label:'" + skin_name + "'})"
            graph.run(cypher).data()
            # 创建英雄->皮肤关系
            cypher_rel = "MATCH(h:Hero{label:'" + str(
                hero.get('cname')) + "'}),(s:Skin{label:'" + skin_name + "'}) MERGE (h)-[r:皮肤]->(s) RETURN h,r,s"
            graph.run(cypher_rel).data()
        print(str(hero.get('cname')) + '===' + str(hero_type_list) + '===' + str(skin_name_list))

完整代码

python 复制代码
import json

import requests
from bs4 import BeautifulSoup
from py2neo import Graph, RelationshipMatcher, NodeMatcher

from dict import hero_type_dict

url = "bolt://localhost:7687"
username = "neo4j"
password = 'Suns3535'
graph = Graph(url, auth=(username, password), name="wzry")
node_matcher = NodeMatcher(graph=graph)
relationship_matcher = RelationshipMatcher(graph=graph)


def get_hero_info_list():
    # 英雄的全部信息的url
    hero_info = 'https://pvp.qq.com/web201605/js/herolist.json'
    # 获取英雄的全部信息
    response = requests.get(hero_info)
    # 转为字典格式
    hero_info_dict = json.loads(response.text)
    return hero_info_dict


def create_hero_type_node():
    for hero_type in hero_type_dict:
        cypher = "MERGE (n:HeroType{label: '" + hero_type + "'})"
        graph.run(cypher).data()
    print('创建英雄类型节点成功')


def create_hero_node():
    hero_info_dict = get_hero_info_list()
    # 1战士 2法师 3坦克 4刺客 5射手 6辅助
    for hero in hero_info_dict:
        # print(hero)
        # print(str(hero.get('cname')) + '===' + str(hero_type[hero.get('hero_type')-1]) + '===' + str(hero.get('skin_name')))
        hero_type_list = [str(hero_type_dict[hero.get('hero_type') - 1])]
        if '|' in str(hero.get('skin_name')):
            skin_name_list = hero.get('skin_name').split('|')
        else:
            skin_name_list = [hero.get('skin_name')]
        if 'hero_type2' in str(hero):
            hero_type_list.append(str(hero_type_dict[hero.get('hero_type2') - 1]))
        # 创建英雄信息节点
        hero_cypher = "MERGE (n:Hero{label: '" + str(hero.get('cname')) + "'})"
        graph.run(hero_cypher).data()
        # 创建英雄->类型关系
        for hero_type in hero_type_list:
            cypher_rel = "MATCH(h:Hero{label:'" + str(
                hero.get('cname')) + "'}),(t:HeroType{label:'" + hero_type + "'}) MERGE (h)-[r:类型]->(t) RETURN h,r,t"
            graph.run(cypher_rel).data()

        for skin_name in skin_name_list:
            # 创建英雄皮肤节点
            cypher = "MERGE (n:Skin{label:'" + skin_name + "'})"
            graph.run(cypher).data()
            # 创建英雄->皮肤关系
            cypher_rel = "MATCH(h:Hero{label:'" + str(
                hero.get('cname')) + "'}),(s:Skin{label:'" + skin_name + "'}) MERGE (h)-[r:皮肤]->(s) RETURN h,r,s"
            graph.run(cypher_rel).data()
        print(str(hero.get('cname')) + '===' + str(hero_type_list) + '===' + str(skin_name_list))


# 创建英雄类型节点
create_hero_type_node()
# 创建英雄信息
create_hero_node()

实现效果

相关推荐
砚边数影29 分钟前
数据可视化入门:Matplotlib 基础语法与折线图绘制
数据库·信息可视化·matplotlib·数据可视化·kingbase·数据库平替用金仓·金仓数据库
orange_tt37 分钟前
Djiango配置Celery
数据库·sqlite
前端玖耀里1 小时前
如何使用python的boto库和SES发送电子邮件?
python
serve the people1 小时前
python环境搭建 (十二) pydantic和pydantic-settings类型验证与解析
java·网络·python
小天源1 小时前
Error 1053 Error 1067 服务“启动后立即停止” Java / Python 程序无法后台运行 windows nssm注册器下载与报错处理
开发语言·windows·python·nssm·error 1053·error 1067
云小逸1 小时前
【nmap源码学习】 Nmap网络扫描工具深度解析:从基础参数到核心扫描逻辑
网络·数据库·学习
肉包_5112 小时前
两个数据库互锁,用全局变量互锁会偶发软件卡死
开发语言·数据库·c++
喵手2 小时前
Python爬虫实战:HTTP缓存系统深度实战 — ETag、Last-Modified与requests-cache完全指南(附SQLite持久化存储)!
爬虫·python·爬虫实战·http缓存·etag·零基础python爬虫教学·requests-cache
喵手2 小时前
Python爬虫实战:容器化与定时调度实战 - Docker + Cron + 日志轮转 + 失败重试完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·容器化·零基础python爬虫教学·csv导出·定时调度
霖霖总总2 小时前
[小技巧64]深入解析 MySQL InnoDB 的 Checkpoint 机制:原理、类型与调优
数据库·mysql