[特殊字符]️ 安卓视频号像素级评论采集器 (WeChat Channels OCR Scraper)

1. 标题 (Title)

【V-Finder Pro】基于 7900X 算力驱动的视频号评论全量自动化采集引擎


2. 功能介绍 (Features)

  • 攻克自绘 UI:专门针对视频号评论区无法被系统 UI 树识别的问题,采用"像素眼"策略。

  • 高并发推理:利用 ONNXRuntime 优化,在 7900X 上实现极速图像文字解析。

  • 智能语义对齐:通过纵向像素间距算法,精准匹配"评论者"与"评论内容",解决 OCR 识别块散乱的问题。

  • 全自动流水线:集成"识别-去重-翻页-终止"全过程,支持从首条评论自动扫描至底部。


3. 提示词 (Prompt)

如果你需要让 AI 帮你优化逻辑,建议使用这段描述:

"开发环境为 Python 3.14,硬件核心 Ryzen 9 7900X。任务是开发视频号评论爬虫:要求使用 uiautomator2 进行截屏和 0.8 比例滑动;核心算法为 RapidOCR 结合 OpenCV 的 INTER_CUBIC 放大预处理;必须包含 MD5 指纹去重逻辑,确保在动态滑动的列表页中不出现重复记录;代码需具备强类型保护,防止 OCR 置信度返回空值导致的 Float 比较报错。"


4. 依赖库与安装指南 (Prerequisites & Installation)

由于你使用的是 Python 3.14 (目前处于非常前沿的版本),安装库时建议加上 --user 权限以避免系统权限冲突。

所需核心库:
  1. uiautomator2: 用于驱动安卓手机。

  2. rapidocr_onnxruntime: 核心 OCR 引擎(比 PaddleOCR 更轻量,适合 Windows 快速部署)。

  3. opencv-python: 用于图像预处理(放大、裁切)。

  4. pillow: 辅助图像处理。

安装指令:

请在你的终端(CMD 或 PowerShell)中依次执行:

复制代码
# 升级 pip 到最新版
python -m pip install --upgrade pip

# 安装手机驱动库
pip install uiautomator2 --upgrade --user

# 安装核心 OCR 引擎(ONNX版,完美适配你的 7900X)
pip install rapidocr_onnxruntime --upgrade --user

# 安装图像处理库
pip install opencv-python pillow --upgrade --user

5. 快速检查列表

在运行代码前,请确保:

  • 手机连接:手机已开启"开发者模式"和"USB 调试"。

  • ATX 服务 :运行 python -m uiautomator2 init(或者直接手机打开 ATX 应用点击启动)。

  • 视频号页面:手机已停留在视频号评论展开后的页面。


💡 完整版运行代码

python 复制代码
import uiautomator2 as u2
from rapidocr_onnxruntime import RapidOCR
import cv2
import time
import hashlib

d = u2.connect()
ocr_engine = RapidOCR()

def get_content_hash(user, content):
    """生成唯一哈希,修复了之前的 mdsl5 拼写错误"""
    unique_str = f"{user}_{content}"
    return hashlib.md5(unique_str.encode('utf-8')).hexdigest()

def scrape_all_comments():
    print(f"🚀 7900X 强化版引擎已就绪...")
    
    all_comments_list = []
    seen_comments_hashes = set()
    no_new_content_count = 0
    MAX_NO_NEW_CONTENT = 3 
    page_num = 1

    while True:
        print(f"\n📸 正在扫描第 {page_num} 页...")
        img = d.screenshot(format='opencv')
        if img is None: break
        h, w = img.shape[:2]
        
        img_resized = cv2.resize(img, (w*2, h*2), interpolation=cv2.INTER_CUBIC)
        results, _ = ocr_engine(img_resized)
        
        if not results:
            d.swipe_ext("up", scale=0.7)
            page_num += 1
            continue

        raw_data = []
        for line in results:
            try:
                # 核心修复:强制类型转换,防止 str/float 比较报错
                score = float(line[2]) if line[2] is not None else 0.0
                text = str(line[1]).strip()
                bbox = line[0]
                
                cx = int((bbox[0][0] + bbox[2][0]) / 4)
                cy = int((bbox[0][1] + bbox[2][1]) / 4)
                
                # 过滤非评论区(状态栏和底栏)
                if cy < h * 0.15 or cy > h * 0.9:
                    continue
                    
                raw_data.append({"x": cx, "y": cy, "text": text, "score": score})
            except (ValueError, TypeError, IndexError):
                continue # 忽略格式异常的行

        raw_data.sort(key=lambda k: k['y'])

        new_comments_in_this_page = 0
        i = 0
        while i < len(raw_data):
            item = raw_data[i]
            if i + 1 < len(raw_data):
                next_item = raw_data[i+1]
                # 纵向距离判断,适应高分屏
                if next_item['y'] - item['y'] < 100:
                    user = item['text']
                    content = next_item['text']
                    
                    comment_hash = get_content_hash(user, content)
                    if comment_hash not in seen_comments_hashes:
                        print(f"✅ [新] {user[:8]:<10} | {content[:25]}..")
                        seen_comments_hashes.add(comment_hash)
                        all_comments_list.append({"user": user, "content": content})
                        new_comments_in_this_page += 1
                    i += 2
                    continue
            i += 1

        if new_comments_in_this_page == 0:
            no_new_content_count += 1
            print(f"⚠️ 未发现新内容 ({no_new_content_count}/{MAX_NO_NEW_CONTENT})")
        else:
            no_new_content_count = 0 

        if no_new_content_count >= MAX_NO_NEW_CONTENT:
            print(f"🏁 已到达底部或内容不再更新。")
            break

        # 执行翻页
        d.swipe_ext("up", scale=0.8) 
        time.sleep(1.2) # 给 7900X 和网络一点缓冲时间
        page_num += 1

    return all_comments_list

if __name__ == "__main__":
    try:
        results = scrape_all_comments()
        print(f"\n🎉 采集结束,共抓取到 {len(results)} 条评论!")
    except KeyboardInterrupt:
        print("\n🛑 用户手动停止。")
相关推荐
合合技术团队15 小时前
海外发票智能解析:跨版式、多税制票据的自动化处理方案(附GitHub项目地址)
运维·自动化·github·ocr
OCR_133716212751 天前
证件日期防伪核验技术解析:AI+OCR助力多场景精准验真
人工智能·ocr
AI人工智能+1 天前
一种基于深度学习的表格识别技术,通过融合计算机视觉、图神经网络和Transformer等算法,能精准解析复杂表格结构
深度学习·计算机视觉·ocr·表格识别
HyperAI超神经2 天前
在线教程丨单卡即可爆改,面壁智能等开源MiniCPM-V-4.6,1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话
人工智能·ai·ocr
AI人工智能+2 天前
营业执照识别技术通过计算机视觉与人工智能技术,实现企业证照信息的自动化采集
人工智能·深度学习·ocr·营业执照识别
ZHW_AI课题组2 天前
Python调用腾讯API实现车辆号牌识别
python·ocr·腾讯云·api调用
深圳市快瞳科技有限公司2 天前
医疗票据OCR:打通对接壁垒,搞定信息抽取与规则适配
ocr
spencer_tseng2 天前
OCR (AI) 2026.05.13
ai·ocr
许彰午2 天前
# OCR与语音识别——政务AI的两个实用场景
人工智能·ocr·语音识别
AI人工智能+3 天前
银行卡识别技术通过深度学习与图像处理结合,实现复杂场景下银行卡信息的高效提取
深度学习·计算机视觉·ocr·银行卡识别