[特殊字符]️ 安卓视频号像素级评论采集器 (WeChat Channels OCR Scraper)

1. 标题 (Title)

【V-Finder Pro】基于 7900X 算力驱动的视频号评论全量自动化采集引擎


2. 功能介绍 (Features)

  • 攻克自绘 UI:专门针对视频号评论区无法被系统 UI 树识别的问题,采用"像素眼"策略。

  • 高并发推理:利用 ONNXRuntime 优化,在 7900X 上实现极速图像文字解析。

  • 智能语义对齐:通过纵向像素间距算法,精准匹配"评论者"与"评论内容",解决 OCR 识别块散乱的问题。

  • 全自动流水线:集成"识别-去重-翻页-终止"全过程,支持从首条评论自动扫描至底部。


3. 提示词 (Prompt)

如果你需要让 AI 帮你优化逻辑,建议使用这段描述:

"开发环境为 Python 3.14,硬件核心 Ryzen 9 7900X。任务是开发视频号评论爬虫:要求使用 uiautomator2 进行截屏和 0.8 比例滑动;核心算法为 RapidOCR 结合 OpenCV 的 INTER_CUBIC 放大预处理;必须包含 MD5 指纹去重逻辑,确保在动态滑动的列表页中不出现重复记录;代码需具备强类型保护,防止 OCR 置信度返回空值导致的 Float 比较报错。"


4. 依赖库与安装指南 (Prerequisites & Installation)

由于你使用的是 Python 3.14 (目前处于非常前沿的版本),安装库时建议加上 --user 权限以避免系统权限冲突。

所需核心库:
  1. uiautomator2: 用于驱动安卓手机。

  2. rapidocr_onnxruntime: 核心 OCR 引擎(比 PaddleOCR 更轻量,适合 Windows 快速部署)。

  3. opencv-python: 用于图像预处理(放大、裁切)。

  4. pillow: 辅助图像处理。

安装指令:

请在你的终端(CMD 或 PowerShell)中依次执行:

复制代码
# 升级 pip 到最新版
python -m pip install --upgrade pip

# 安装手机驱动库
pip install uiautomator2 --upgrade --user

# 安装核心 OCR 引擎(ONNX版,完美适配你的 7900X)
pip install rapidocr_onnxruntime --upgrade --user

# 安装图像处理库
pip install opencv-python pillow --upgrade --user

5. 快速检查列表

在运行代码前,请确保:

  • 手机连接:手机已开启"开发者模式"和"USB 调试"。

  • ATX 服务 :运行 python -m uiautomator2 init(或者直接手机打开 ATX 应用点击启动)。

  • 视频号页面:手机已停留在视频号评论展开后的页面。


💡 完整版运行代码

python 复制代码
import uiautomator2 as u2
from rapidocr_onnxruntime import RapidOCR
import cv2
import time
import hashlib

d = u2.connect()
ocr_engine = RapidOCR()

def get_content_hash(user, content):
    """生成唯一哈希,修复了之前的 mdsl5 拼写错误"""
    unique_str = f"{user}_{content}"
    return hashlib.md5(unique_str.encode('utf-8')).hexdigest()

def scrape_all_comments():
    print(f"🚀 7900X 强化版引擎已就绪...")
    
    all_comments_list = []
    seen_comments_hashes = set()
    no_new_content_count = 0
    MAX_NO_NEW_CONTENT = 3 
    page_num = 1

    while True:
        print(f"\n📸 正在扫描第 {page_num} 页...")
        img = d.screenshot(format='opencv')
        if img is None: break
        h, w = img.shape[:2]
        
        img_resized = cv2.resize(img, (w*2, h*2), interpolation=cv2.INTER_CUBIC)
        results, _ = ocr_engine(img_resized)
        
        if not results:
            d.swipe_ext("up", scale=0.7)
            page_num += 1
            continue

        raw_data = []
        for line in results:
            try:
                # 核心修复:强制类型转换,防止 str/float 比较报错
                score = float(line[2]) if line[2] is not None else 0.0
                text = str(line[1]).strip()
                bbox = line[0]
                
                cx = int((bbox[0][0] + bbox[2][0]) / 4)
                cy = int((bbox[0][1] + bbox[2][1]) / 4)
                
                # 过滤非评论区(状态栏和底栏)
                if cy < h * 0.15 or cy > h * 0.9:
                    continue
                    
                raw_data.append({"x": cx, "y": cy, "text": text, "score": score})
            except (ValueError, TypeError, IndexError):
                continue # 忽略格式异常的行

        raw_data.sort(key=lambda k: k['y'])

        new_comments_in_this_page = 0
        i = 0
        while i < len(raw_data):
            item = raw_data[i]
            if i + 1 < len(raw_data):
                next_item = raw_data[i+1]
                # 纵向距离判断,适应高分屏
                if next_item['y'] - item['y'] < 100:
                    user = item['text']
                    content = next_item['text']
                    
                    comment_hash = get_content_hash(user, content)
                    if comment_hash not in seen_comments_hashes:
                        print(f"✅ [新] {user[:8]:<10} | {content[:25]}..")
                        seen_comments_hashes.add(comment_hash)
                        all_comments_list.append({"user": user, "content": content})
                        new_comments_in_this_page += 1
                    i += 2
                    continue
            i += 1

        if new_comments_in_this_page == 0:
            no_new_content_count += 1
            print(f"⚠️ 未发现新内容 ({no_new_content_count}/{MAX_NO_NEW_CONTENT})")
        else:
            no_new_content_count = 0 

        if no_new_content_count >= MAX_NO_NEW_CONTENT:
            print(f"🏁 已到达底部或内容不再更新。")
            break

        # 执行翻页
        d.swipe_ext("up", scale=0.8) 
        time.sleep(1.2) # 给 7900X 和网络一点缓冲时间
        page_num += 1

    return all_comments_list

if __name__ == "__main__":
    try:
        results = scrape_all_comments()
        print(f"\n🎉 采集结束,共抓取到 {len(results)} 条评论!")
    except KeyboardInterrupt:
        print("\n🛑 用户手动停止。")
相关推荐
kevin 13 小时前
信贷审批中的财务报表OCR录入:减少手工录入和复核返工
ocr
神州数码云基地3 小时前
告别传统OCR瓶颈,DeepSeek-OCR如何重塑文档智能?
人工智能·llm·ocr·大语言模型·deepseek
weixin_408099674 小时前
Lua请求文字识别ocr api
图像处理·人工智能·后端·ocr·lua·api·文字识别
AI人工智能+1 天前
驾驶证识别:通过计算机视觉与自然语言处理的深度协同,该系统实现了从“看图识字”到“理解语义”的跨越
计算机视觉·自然语言处理·ocr·驾驶证识别
Cyan_RA92 天前
如何利用 Paddle-OCR 丝滑进行复杂版面 PDF 的批量化OCR处理?
java·linux·python·ocr·conda·paddle·surya
AI人工智能+2 天前
行驶证识别技术融合计算机视觉与自然语言处理,实现机动车证件信息的精准提取
深度学习·计算机视觉·ocr·行驶证识别
weixin_408099672 天前
OCR自动提取商品标题:电商SEO优化实战(批量生成标题,提升曝光)
ocr·api接口·电商运营·电商搬运项目·自动化上架·商品信息提取·电商seo
weixin_408099672 天前
OCR + 自动翻译:跨境电商批量铺货方案(支持多语言自动识别)
python·ocr·机器翻译·api接口·跨境电商·ocr识别·电商自动化
AI人工智能+3 天前
文档抽取系统结合OCR技术与大语言模型,有效解决档案数字化与知识化利用之间的矛盾
人工智能·计算机视觉·ocr·文档抽取