[特殊字符]️ 安卓视频号像素级评论采集器 (WeChat Channels OCR Scraper)

1. 标题 (Title)

【V-Finder Pro】基于 7900X 算力驱动的视频号评论全量自动化采集引擎

2. 功能介绍 (Features)

攻克自绘 UI：专门针对视频号评论区无法被系统 UI 树识别的问题，采用"像素眼"策略。
高并发推理：利用 ONNXRuntime 优化，在 7900X 上实现极速图像文字解析。
智能语义对齐：通过纵向像素间距算法，精准匹配"评论者"与"评论内容"，解决 OCR 识别块散乱的问题。
全自动流水线：集成"识别-去重-翻页-终止"全过程，支持从首条评论自动扫描至底部。

3. 提示词 (Prompt)

如果你需要让 AI 帮你优化逻辑，建议使用这段描述：

"开发环境为 Python 3.14，硬件核心 Ryzen 9 7900X。任务是开发视频号评论爬虫：要求使用 uiautomator2 进行截屏和 0.8 比例滑动；核心算法为 RapidOCR 结合 OpenCV 的 INTER_CUBIC 放大预处理；必须包含 MD5 指纹去重逻辑，确保在动态滑动的列表页中不出现重复记录；代码需具备强类型保护，防止 OCR 置信度返回空值导致的 Float 比较报错。"

4. 依赖库与安装指南 (Prerequisites & Installation)

由于你使用的是 Python 3.14 （目前处于非常前沿的版本），安装库时建议加上 --user 权限以避免系统权限冲突。

所需核心库：

uiautomator2: 用于驱动安卓手机。
rapidocr_onnxruntime: 核心 OCR 引擎（比 PaddleOCR 更轻量，适合 Windows 快速部署）。
opencv-python: 用于图像预处理（放大、裁切）。
pillow: 辅助图像处理。

安装指令：

请在你的终端（CMD 或 PowerShell）中依次执行：

复制代码

# 升级 pip 到最新版
python -m pip install --upgrade pip

# 安装手机驱动库
pip install uiautomator2 --upgrade --user

# 安装核心 OCR 引擎（ONNX版，完美适配你的 7900X）
pip install rapidocr_onnxruntime --upgrade --user

# 安装图像处理库
pip install opencv-python pillow --upgrade --user

5. 快速检查列表

在运行代码前，请确保：

手机连接：手机已开启"开发者模式"和"USB 调试"。
ATX 服务 ：运行 python -m uiautomator2 init（或者直接手机打开 ATX 应用点击启动）。
视频号页面：手机已停留在视频号评论展开后的页面。

💡 完整版运行代码

python 复制代码

import uiautomator2 as u2
from rapidocr_onnxruntime import RapidOCR
import cv2
import time
import hashlib

d = u2.connect()
ocr_engine = RapidOCR()

def get_content_hash(user, content):
    """生成唯一哈希，修复了之前的 mdsl5 拼写错误"""
    unique_str = f"{user}_{content}"
    return hashlib.md5(unique_str.encode('utf-8')).hexdigest()

def scrape_all_comments():
    print(f"🚀 7900X 强化版引擎已就绪...")
    
    all_comments_list = []
    seen_comments_hashes = set()
    no_new_content_count = 0
    MAX_NO_NEW_CONTENT = 3 
    page_num = 1

    while True:
        print(f"\n📸 正在扫描第 {page_num} 页...")
        img = d.screenshot(format='opencv')
        if img is None: break
        h, w = img.shape[:2]
        
        img_resized = cv2.resize(img, (w*2, h*2), interpolation=cv2.INTER_CUBIC)
        results, _ = ocr_engine(img_resized)
        
        if not results:
            d.swipe_ext("up", scale=0.7)
            page_num += 1
            continue

        raw_data = []
        for line in results:
            try:
                # 核心修复：强制类型转换，防止 str/float 比较报错
                score = float(line[2]) if line[2] is not None else 0.0
                text = str(line[1]).strip()
                bbox = line[0]
                
                cx = int((bbox[0][0] + bbox[2][0]) / 4)
                cy = int((bbox[0][1] + bbox[2][1]) / 4)
                
                # 过滤非评论区（状态栏和底栏）
                if cy < h * 0.15 or cy > h * 0.9:
                    continue
                    
                raw_data.append({"x": cx, "y": cy, "text": text, "score": score})
            except (ValueError, TypeError, IndexError):
                continue # 忽略格式异常的行

        raw_data.sort(key=lambda k: k['y'])

        new_comments_in_this_page = 0
        i = 0
        while i < len(raw_data):
            item = raw_data[i]
            if i + 1 < len(raw_data):
                next_item = raw_data[i+1]
                # 纵向距离判断，适应高分屏
                if next_item['y'] - item['y'] < 100:
                    user = item['text']
                    content = next_item['text']
                    
                    comment_hash = get_content_hash(user, content)
                    if comment_hash not in seen_comments_hashes:
                        print(f"✅ [新] {user[:8]:<10} | {content[:25]}..")
                        seen_comments_hashes.add(comment_hash)
                        all_comments_list.append({"user": user, "content": content})
                        new_comments_in_this_page += 1
                    i += 2
                    continue
            i += 1

        if new_comments_in_this_page == 0:
            no_new_content_count += 1
            print(f"⚠️ 未发现新内容 ({no_new_content_count}/{MAX_NO_NEW_CONTENT})")
        else:
            no_new_content_count = 0 

        if no_new_content_count >= MAX_NO_NEW_CONTENT:
            print(f"🏁 已到达底部或内容不再更新。")
            break

        # 执行翻页
        d.swipe_ext("up", scale=0.8) 
        time.sleep(1.2) # 给 7900X 和网络一点缓冲时间
        page_num += 1

    return all_comments_list

if __name__ == "__main__":
    try:
        results = scrape_all_comments()
        print(f"\n🎉 采集结束，共抓取到 {len(results)} 条评论！")
    except KeyboardInterrupt:
        print("\n🛑 用户手动停止。")