如何抓取某音视频的互动数据

如何抓取某音视频的互动数据

闲来无事琢磨了一下某音的视频数据抓取,发现通过链接就能提取点赞、评论、收藏这些互动数据。分享给有同样兴趣的朋友,说不定能帮你省点时间。

具体实现方法

  1. 获取视频链接 随便找个某音视频,复制它的分享链接。注意要完整的链接,不能是那种简化过的短链接。

  2. 提取视频ID 链接里有一串特殊的字符就是视频ID,用正则表达式或者字符串处理方法把它单独提取出来。

  3. 构造API请求 观察平台的数据请求规律,构造一个能获取视频详情的请求。需要设置合适的请求头和参数。

  4. 解析返回数据 拿到返回的JSON数据后,找到点赞数、评论数和收藏数对应的字段。这些字段可能会变,需要定期检查更新。

    python 复制代码
     # 监听数据包
            try:
                driver.listen.start('aweme/v1/web/aweme/detail/')
            except Exception as e:
                print(f"启动监听时发生错误: {e}")
                return None
    
            # 访问网站
            try:
                driver.get(video_url)
            except Exception as e:
                print(f"访问网页时发生错误: {e}")
                return None
    
            # 定义一个变量来存储响应数据
            json_data = None
    
            # 定义一个事件来通知主线程数据包已接收
            data_received = threading.Event()
            stop_event = threading.Event()  # 新增:用于通知子线程停止运行
    
            def listen_for_response():
                nonlocal json_data
                try:
                    while not stop_event.is_set():  # 检查是否需要停止
                        resp = driver.listen.wait(timeout=wait_time)  # 使用从EVN中导入的wait_time
                        if resp:
                            json_data = resp.response.body
                            data_received.set()
                            break  # 收到数据后退出循环
                except Exception as e:
                    print(f"监听数据包时发生错误: {e}")
                    EimsErrorMessage.add_interaction_error_log(link_address, 'video类型视频,监听接口失败', public_ip)
                finally:
                    stop_event.set()  # 确保最终设置停止标志

注意事项

  • 请求频率别太高,容易被封
  • 数据字段可能会变,需要及时调整
  • 仅供学习交流,别用于商业用途
  • 只提供部分主要功能点代码,如需完整的,请私信

这个小小的探索还挺有意思的,虽然没什么实际用途,但能一窥平台的数据结构也是种乐趣。有兴趣的话可以自己试试看,说不定能发现更有意思的东西。

相关推荐
CTA终结者12 小时前
期货量化环境装不上怎么办:天勤 TqSdk 安装与 Python 版本排查
开发语言·python
SilentSamsara12 小时前
Python 与 Docker:多阶段构建、最小镜像与健康检查
运维·开发语言·python·docker·中间件·容器
哈泽尔都12 小时前
运动控制教学——5分钟学会力控算法(阻抗/导纳/力位混合)
c++·python·算法·决策树·贪心算法·机器人·gpu算力
月疯12 小时前
PyTorch 中定义了一个 LeakyReLU 激活函数层
人工智能·pytorch·python
深蓝电商API12 小时前
AI驱动的自适应爬虫框架设计思路全解析
人工智能·爬虫
小白学大数据12 小时前
AI 智能爬虫实战:Selenium+Python 自动绕反爬、一键提取数据
爬虫·python·selenium·数据分析
DreamLife☼12 小时前
OpenBCI-实战二:脑波控制小游戏开发
python·pygame·openbci·cyton·ganglion
smj2302_7968265212 小时前
解决leetcode第3948题字典序最大的MEX数组
python·算法·leetcode
程序大视界12 小时前
【Python系列课程】Pandas(六):数据读写——CSV与Excel文件操作
python·excel·pandas
weixin_4074438713 小时前
OCR材料信息提取工具(附件中含代码和数据)
人工智能·python·计算机视觉·ocr