(Python学习)爬取虎牙各个直播间的主播名字和人气

获得不同类型游戏直播间的主播名字和人气,只需要修改url的最后面地址,下面加粗黑色字体。

https://www.huya.com/g/**wzry**

python 复制代码
"""
爬取虎牙直播不同游戏类型的主播及人气(仅学习使用)
"""
import re
from urllib import request

class Spider:
    #对应虎牙游戏直播间ip地址
    url = 'https://www.huya.com/g/wzry'

    #正则表达式
    root_pattern = '<span class="avatar fl">([\s\S]*?)</span><span class="num">([\s\S]*?)</span>'
    name_pattern = '<i class="nick" title="([\s\S]*?)">([\s\S]*?)</i>'
    number_pattern = '<i class="js-num">([\s\S]*?)</i>'

    #爬取整个HTML
    def __fetch_content(self):
        r = request.urlopen(Spider.url)

        htmls = r.read()
        htmls = str(htmls, encoding='utf-8')

        return htmls

    #提取html中的信息
    def __analysis(self, htmls):
        htmls = re.findall(Spider.root_pattern, htmls)

        anchors = []
        for x in htmls:
            name = re.findall(Spider.name_pattern, str(x))
            number = re.findall(Spider.number_pattern, str(x))
            anchors.append({'name':name[0], 'number':number})
        return anchors

    #对提取的html信息进行过滤
    def __refine(self, htmls):
        l = lambda x : {'name':x['name'][0].strip(), 'number':x['number'][0].strip()}
        r = map(l, htmls)
        return list(r)

    #排序
    def __sort(self, htmls):
        htmls = sorted(htmls, key=self.__sort_seed, reverse=True)
        return htmls

    #排序的key设定
    def __sort_seed(self, htmls):
        r = re.findall('\d*',htmls['number'])
        number = float(r[0])*10000 + float(r[2])*1000
        return number

    #展示信息
    def __show(self, htmls):
        for rank in range(0, len(htmls)):
            print("rank:"+str(rank)+" name:"+htmls[rank]['name']+"------"+htmls[rank]['number'])

    #main函数
    def go(self):
        htmls = self.__fetch_content()
        htmls = self.__analysis(htmls)
        htmls = self.__refine(htmls)
        htmls = self.__sort(htmls)
        self.__show(htmls)

spider = Spider()
spider.go()
相关推荐
漫步企鹅8 分钟前
【GDB】调试程序的基本命令和用法(Qt程序为例)
开发语言·qt·gdb·调试
互联网搬砖老肖11 分钟前
21 天 Python 计划:MySQL索引机制从基础到应用
python·mysql·adb
阿昆的科研日常18 分钟前
Matlab个性化绘图第10期—滑珠进度柱状图
开发语言·matlab·可视化·论文插图
严文文-Chris22 分钟前
方法区、堆、虚拟机栈、寄存器分别存储哪些内容?为什么存储这些内容?
java·开发语言
Lounger6628 分钟前
107.二叉树的层序遍历II- 力扣(LeetCode)
python·算法·leetcode
Code_流苏28 分钟前
《Python星球日记》第25天:Pandas 数据分析
python·数据分析·pandas·数据聚合·时间序列
IT猿手29 分钟前
动态多目标优化:基于可学习预测的动态多目标进化算法(DIP-DMOEA)求解CEC2018(DF1-DF14),提供MATLAB代码
学习·算法·matlab·动态多目标优化·动态多目标进化算法
无名之逆32 分钟前
Hyperlane 文件分块上传服务端
服务器·开发语言·前端·网络·http·rust·php
程序员三藏34 分钟前
Selenium三大等待
自动化测试·软件测试·数据库·python·selenium·测试工具·测试用例
Miraitowa_cheems1 小时前
JAVA SE 自我总结
java·开发语言·javase