[特殊字符]️ 安卓视频号像素级评论采集器 (WeChat Channels OCR Scraper)

1. 标题 (Title)

【V-Finder Pro】基于 7900X 算力驱动的视频号评论全量自动化采集引擎


2. 功能介绍 (Features)

  • 攻克自绘 UI:专门针对视频号评论区无法被系统 UI 树识别的问题,采用"像素眼"策略。

  • 高并发推理:利用 ONNXRuntime 优化,在 7900X 上实现极速图像文字解析。

  • 智能语义对齐:通过纵向像素间距算法,精准匹配"评论者"与"评论内容",解决 OCR 识别块散乱的问题。

  • 全自动流水线:集成"识别-去重-翻页-终止"全过程,支持从首条评论自动扫描至底部。


3. 提示词 (Prompt)

如果你需要让 AI 帮你优化逻辑,建议使用这段描述:

"开发环境为 Python 3.14,硬件核心 Ryzen 9 7900X。任务是开发视频号评论爬虫:要求使用 uiautomator2 进行截屏和 0.8 比例滑动;核心算法为 RapidOCR 结合 OpenCV 的 INTER_CUBIC 放大预处理;必须包含 MD5 指纹去重逻辑,确保在动态滑动的列表页中不出现重复记录;代码需具备强类型保护,防止 OCR 置信度返回空值导致的 Float 比较报错。"


4. 依赖库与安装指南 (Prerequisites & Installation)

由于你使用的是 Python 3.14 (目前处于非常前沿的版本),安装库时建议加上 --user 权限以避免系统权限冲突。

所需核心库:
  1. uiautomator2: 用于驱动安卓手机。

  2. rapidocr_onnxruntime: 核心 OCR 引擎(比 PaddleOCR 更轻量,适合 Windows 快速部署)。

  3. opencv-python: 用于图像预处理(放大、裁切)。

  4. pillow: 辅助图像处理。

安装指令:

请在你的终端(CMD 或 PowerShell)中依次执行:

复制代码
# 升级 pip 到最新版
python -m pip install --upgrade pip

# 安装手机驱动库
pip install uiautomator2 --upgrade --user

# 安装核心 OCR 引擎(ONNX版,完美适配你的 7900X)
pip install rapidocr_onnxruntime --upgrade --user

# 安装图像处理库
pip install opencv-python pillow --upgrade --user

5. 快速检查列表

在运行代码前,请确保:

  • 手机连接:手机已开启"开发者模式"和"USB 调试"。

  • ATX 服务 :运行 python -m uiautomator2 init(或者直接手机打开 ATX 应用点击启动)。

  • 视频号页面:手机已停留在视频号评论展开后的页面。


💡 完整版运行代码

python 复制代码
import uiautomator2 as u2
from rapidocr_onnxruntime import RapidOCR
import cv2
import time
import hashlib

d = u2.connect()
ocr_engine = RapidOCR()

def get_content_hash(user, content):
    """生成唯一哈希,修复了之前的 mdsl5 拼写错误"""
    unique_str = f"{user}_{content}"
    return hashlib.md5(unique_str.encode('utf-8')).hexdigest()

def scrape_all_comments():
    print(f"🚀 7900X 强化版引擎已就绪...")
    
    all_comments_list = []
    seen_comments_hashes = set()
    no_new_content_count = 0
    MAX_NO_NEW_CONTENT = 3 
    page_num = 1

    while True:
        print(f"\n📸 正在扫描第 {page_num} 页...")
        img = d.screenshot(format='opencv')
        if img is None: break
        h, w = img.shape[:2]
        
        img_resized = cv2.resize(img, (w*2, h*2), interpolation=cv2.INTER_CUBIC)
        results, _ = ocr_engine(img_resized)
        
        if not results:
            d.swipe_ext("up", scale=0.7)
            page_num += 1
            continue

        raw_data = []
        for line in results:
            try:
                # 核心修复:强制类型转换,防止 str/float 比较报错
                score = float(line[2]) if line[2] is not None else 0.0
                text = str(line[1]).strip()
                bbox = line[0]
                
                cx = int((bbox[0][0] + bbox[2][0]) / 4)
                cy = int((bbox[0][1] + bbox[2][1]) / 4)
                
                # 过滤非评论区(状态栏和底栏)
                if cy < h * 0.15 or cy > h * 0.9:
                    continue
                    
                raw_data.append({"x": cx, "y": cy, "text": text, "score": score})
            except (ValueError, TypeError, IndexError):
                continue # 忽略格式异常的行

        raw_data.sort(key=lambda k: k['y'])

        new_comments_in_this_page = 0
        i = 0
        while i < len(raw_data):
            item = raw_data[i]
            if i + 1 < len(raw_data):
                next_item = raw_data[i+1]
                # 纵向距离判断,适应高分屏
                if next_item['y'] - item['y'] < 100:
                    user = item['text']
                    content = next_item['text']
                    
                    comment_hash = get_content_hash(user, content)
                    if comment_hash not in seen_comments_hashes:
                        print(f"✅ [新] {user[:8]:<10} | {content[:25]}..")
                        seen_comments_hashes.add(comment_hash)
                        all_comments_list.append({"user": user, "content": content})
                        new_comments_in_this_page += 1
                    i += 2
                    continue
            i += 1

        if new_comments_in_this_page == 0:
            no_new_content_count += 1
            print(f"⚠️ 未发现新内容 ({no_new_content_count}/{MAX_NO_NEW_CONTENT})")
        else:
            no_new_content_count = 0 

        if no_new_content_count >= MAX_NO_NEW_CONTENT:
            print(f"🏁 已到达底部或内容不再更新。")
            break

        # 执行翻页
        d.swipe_ext("up", scale=0.8) 
        time.sleep(1.2) # 给 7900X 和网络一点缓冲时间
        page_num += 1

    return all_comments_list

if __name__ == "__main__":
    try:
        results = scrape_all_comments()
        print(f"\n🎉 采集结束,共抓取到 {len(results)} 条评论!")
    except KeyboardInterrupt:
        print("\n🛑 用户手动停止。")
相关推荐
光之后裔5 小时前
用自定义数据集微调PP-OCRv5文本检测、识别模型
python·机器学习·ocr
王五周八7 小时前
Tesseract OCR的Java使用(附安装包,非常详细)
java·开发语言·ocr
AI人工智能+7 小时前
银行回单识别技术通过OCR与深度学习实现财务数字化转型
深度学习·自然语言处理·ocr·银行回单识别
yugi9878388 小时前
基于C#实现数字识别率的OCR方案
开发语言·c#·ocr
BugShare8 小时前
把「贴图 + OCR + 翻译 + 长截图 + 录屏」做到极致的截图软件—PixPin
ocr·贴图
Maydaycxc9 小时前
Python 实现 RPA + AI 自动化:大模型 OCR + 网页操作完整源码实战
人工智能·python·opencv·selenium·自动化·ocr·rpa
AI人工智能+1 天前
基于深度学习的医疗机构执业许可证识别技术通过智能图像处理、目标检测和语义理解,实现关键信息的高精度提取与结构化转换
深度学习·计算机视觉·自然语言处理·ocr·医疗机构执业许可证识别
王莎莎-MinerU2 天前
从 OCR 到 Context Engineering:用 MinerU 搭一个可复现文档解析评测
人工智能·深度学习·机器学习·pdf·ocr·个人开发
AI人工智能+2 天前
往来港澳通行证识别系统,深度融合计算机视觉与自然语言处理,为“智慧口岸”和“数字政务”提供了强有力的技术支撑
人工智能·深度学习·ocr·往来港澳通行证识别
打小就很皮...2 天前
基于 Python + LangChain + React 实现智能发票识别与验真系统实战
前端·react.js·langchain·ocr·发票识别