python采集小破站视频弹幕

嗨喽~大家好呀，这里是魔王呐 ❤ ~!

[python更多源码/资料/解答/教程等点击此处跳转文末名片免费获取](#python更多源码/资料/解答/教程等点击此处跳转文末名片免费获取)

环境使用]:

复制代码

Python 3.8
Pycharm

模块使用]:

复制代码

import requests 数据请求
import jieba 分词
import wordcloud  词云
import re 正则

通过爬虫程序采集数据

分析数据在什么地方

通过浏览器开发者工具进行抓包分析

I.打开开发者工具: F12 / 右键点击检查选择选择network<网络>

II. 直接点击弹幕列表

III. 找到链接 seg.so

写代码基本步骤

发送请求
获取数据
解析数据
保存数据

发送请求->模拟浏览器对于url地址发送请求

模拟浏览器 <没有伪装>

提醒你没有登陆账号
w_rid <加密参数没有做解密>

你没有访问权限

爬虫内容稍微核心点知识点: JS逆向

参数加密 --> 解密分析加密规则

代码展示

导入模块

dart 复制代码

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：926207505
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入加密模块
import hashlib
# 导入时间模块
import time

dart 复制代码

def Hash(num, date_time):
    """
    :param num: 页码
    :param date_time: 时间戳
    :return:
    webpack -> 扣代码
    根据经验: 了解到是MD5 --> 可以直接写出来
    """
    string = f'oid=1330002174&pid=748271512&segment_index={num}&type=1&web_location=1315873&wts={date_time}ea1db124af3c7062474693fa704f4ff8'
    MD5 = hashlib.md5()
    MD5.update(string.encode('utf-8'))
    w_rid = MD5.hexdigest()
    return w_rid


for page in range(2, 13):
    date_time = int(time.time())
    w_rid = Hash(page, date_time)
    print(w_rid)

"""发送请求"""

dart 复制代码

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：926207505
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
    url = f'https://api.****/x/v2/dm/wbi/web/seg.so?type=1&oid=1330002174&pid=748271512&segment_index={page}&web_location=1315873&w_rid={w_rid}&wts={date_time}'
    # 模拟浏览器 <请求头>
    headers = {
        "Cookie":"buvid3=F20F4B52-ACB8-A021-3E0B-C346082E75AE97990infoc; b_nut=1697433797; CURRENT_FNVAL=4048; _uuid=B6E5D859-ECB4-5374-CEB3-ED2BCF41AF61098925infoc; buvid4=A0796219-8C0D-3CEA-74F0-BC1577B4BAAF99316-023101613-j+EVJ7V9TtLMVIMXjUkPKw%3D%3D; rpdid=|(kmJYmkk~k)0J'uYm~RJJ~mm; enable_web_push=DISABLE; header_theme_version=CLOSE; fingerprint=302abb9d1feb7abe011384358e53e1a6; buvid_fp_plain=undefined; SESSDATA=4d5c41d1%2C1713344487%2C042a1%2Aa2CjDCrSgSlisDAAfV8MGqQQGsXpmE5uLZGIM5sfxFreMgKnOnB4mI_UG7YyE6i6-_gqoSVklzTE44cmlJRmxCQnB3b0dLd25GTXBLb0lodWpfUFpPY0lnUUJqX2R2S19fT1hmOVYzRW12VVZaMktnODQwM2FseG9aQmNJak1NY2NpS2dfTFQwUmt3IIEC; bili_jct=d67ef1713484af58707c12c1697b1a8a; DedeUserID=406732493; DedeUserID__ckMd5=48c43aca436bb747; buvid_fp=302abb9d1feb7abe011384358e53e1a6; bp_video_offset_406732493=858548088305877015; LIVE_BUVID=AUTO9616989170857857; CURRENT_QUALITY=80; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE2OTk5NDkxNTEsImlhdCI6MTY5OTY4OTg5MSwicGx0IjotMX0.LgcasmNZYUOxswBAJk2xWPmZ4ZYep-AbnhRucwu3c8A; bili_ticket_expires=1699949091; b_lsid=AE210A71E_18BC86FBB01; PVID=1; home_feed_column=5; browser_resolution=1707-861; sid=8ncrwo4o",
        "Referer":"https://search.***/all?",
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"
    }
    # 发送请求
    response = requests.get(url=url, headers=headers)
    response.encoding = 'utf-8'

"""获取数据"""

dart 复制代码

    html_data = response.text

"""解析数据"""

dart 复制代码

    content_list = re.findall(':(.*?)@', html_data)
    for index in content_list:
        print(index[1:])

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉，有学习到一点知识~

躲起来的星星🍥也在努力发光，你也要努力加油（让我们一起努力叭）。

最后，宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇