如何抓取某音视频的互动数据

如何抓取某音视频的互动数据

闲来无事琢磨了一下某音的视频数据抓取,发现通过链接就能提取点赞、评论、收藏这些互动数据。分享给有同样兴趣的朋友,说不定能帮你省点时间。

具体实现方法

  1. 获取视频链接 随便找个某音视频,复制它的分享链接。注意要完整的链接,不能是那种简化过的短链接。

  2. 提取视频ID 链接里有一串特殊的字符就是视频ID,用正则表达式或者字符串处理方法把它单独提取出来。

  3. 构造API请求 观察平台的数据请求规律,构造一个能获取视频详情的请求。需要设置合适的请求头和参数。

  4. 解析返回数据 拿到返回的JSON数据后,找到点赞数、评论数和收藏数对应的字段。这些字段可能会变,需要定期检查更新。

    python 复制代码
     # 监听数据包
            try:
                driver.listen.start('aweme/v1/web/aweme/detail/')
            except Exception as e:
                print(f"启动监听时发生错误: {e}")
                return None
    
            # 访问网站
            try:
                driver.get(video_url)
            except Exception as e:
                print(f"访问网页时发生错误: {e}")
                return None
    
            # 定义一个变量来存储响应数据
            json_data = None
    
            # 定义一个事件来通知主线程数据包已接收
            data_received = threading.Event()
            stop_event = threading.Event()  # 新增:用于通知子线程停止运行
    
            def listen_for_response():
                nonlocal json_data
                try:
                    while not stop_event.is_set():  # 检查是否需要停止
                        resp = driver.listen.wait(timeout=wait_time)  # 使用从EVN中导入的wait_time
                        if resp:
                            json_data = resp.response.body
                            data_received.set()
                            break  # 收到数据后退出循环
                except Exception as e:
                    print(f"监听数据包时发生错误: {e}")
                    EimsErrorMessage.add_interaction_error_log(link_address, 'video类型视频,监听接口失败', public_ip)
                finally:
                    stop_event.set()  # 确保最终设置停止标志

注意事项

  • 请求频率别太高,容易被封
  • 数据字段可能会变,需要及时调整
  • 仅供学习交流,别用于商业用途
  • 只提供部分主要功能点代码,如需完整的,请私信

这个小小的探索还挺有意思的,虽然没什么实际用途,但能一窥平台的数据结构也是种乐趣。有兴趣的话可以自己试试看,说不定能发现更有意思的东西。

相关推荐
测试员周周1 小时前
【Appium 系列】第04节-Page Object 模式 — BasePage 基类设计
开发语言·数据库·人工智能·python·语言模型·appium·web app
坐吃山猪1 小时前
Python34_装饰器知识
开发语言·python·ubuntu
ZHW_AI课题组1 小时前
调用华为智能云API实现手写图片识别
图像处理·python·机器学习·华为·分类
weixin_660096781 小时前
【无标题】
python·debugpy
小草cys1 小时前
Anaconda 的虚拟环境(envs)从默认的 C 盘迁移到其他磁盘
开发语言·python·anaconda
keineahnung23451 小时前
PyTorch SymNode 的 _is_contiguous 從何而來?──sizes_strides_impl 實作詳解
人工智能·pytorch·python·深度学习
七牛云行业应用1 小时前
MCP 服务器本地部署实战【2026】:Python/Node.js 搭建 + Claude/Cursor/TRAE
服务器·python·node.js
Web极客码1 小时前
Python Deque:构建实时滑动窗口与高性能缓存的“隐藏高手”
java·python·缓存
钱多多_qdd1 小时前
基于mac环境,升级python环境问题解决
开发语言·python·macos