智能,轻量,高效的爬虫工具 (爬虫宝第一代), HSpider

场景

之前玩爬虫宝一时爽,但是我很快发现了一个致命的问题。就是chat3.5 有时候误判,Claude2 是遇到大一点的html就无法解析,chat4 Api没有申请下来,chat3.5 误判这个可以纠正,但是每次爬取花费的钱都是2刀以上,我定义了一个任务,结果一晚上跑了我好几十刀(忘记设置限额了,被自己蠢哭了),心疼,所以我要把部分功能剥离出来,先提供一个先行版,做成HSpider(后续可能要改名)以供使用。

HSpider

语言: python
涉及: 自动化 + html解析
原理: 自动化 + html解析

HSpider是一个基于Python的工具,简单,强大,智能,易用,用于在HTML文档中查找并分析特定文本的出现。它利用了BeautifulSoup库的功能来解析HTML内容,并结合正则表达式来定位特定的文本。以下是这个类实现的大致原理,详细解释其工作方式和各个组件的角色:

BeautifulSoup和HTML解析

BeautifulSoup是一个流行的Python库,用于解析HTML和XML文档。它能够将复杂的HTML文档转换成一个易于操作的Python对象结构。每个HTML标签都被转换为BeautifulSoup的Tag对象,这些对象可以用来访问标签的名称、属性和内容。此外,BeautifulSoup还提供了丰富的方法和属性来遍历和搜索文档树。

正则表达式与文本搜索

正则表达式是一种强大的文本匹配工具,它允许定义复杂的搜索模式。在TextFinder类中,正则表达式用于创建一个模式,该模式能够匹配用户指定的文本。通过将用户的文本转换为一个正则表达式模式,类能够在HTML内容中查找完全或部分匹配的文本字符串。

查找包含特定文本的元素

TextFinder类的核心功能之一是找到包含用户指定文本的最小HTML元素。为此,它遍历文档中的每个元素,并使用之前构建的正则表达式模式来检查元素的文本内容。如果一个元素的文本内容与模式匹配,类会进一步检查该元素的所有子元素,以确保找到的元素是包含指定文本的最小单位。

获取元素的层级结构

类中的另一个重要功能是能够提供指定元素在HTML文档中的层级结构。这是通过从目标元素开始,逐级向上遍历其父元素来实现的。在这个过程中,每个元素的标签名和属性都被记录下来。这样可以得到一个从根元素到目标元素的路径,这对于理解元素在整个文档中的上下文非常有帮助。

日志记录

使用Python的内置日志模块来记录关键的信息和警告。这对于调试和追踪类的行为非常有用。日志记录可以帮助开发者理解类的工作流程,以及在处理特定HTML文档时遇到的任何问题。

用户友好的接口

提供了一个简单易用的接口,使得用户可以轻松地将其集成到自己的项目中。通过几个简单的方法调用,用户可以执行复杂的HTML解析和文本搜索任务。这使得类不仅对有经验的开发者有用,对那些不太熟悉HTML解析或正则表达式的用户也同样有用。

示例用法

记录规则,例如:你要爬取所有的亚马逊产品的标题和售价,search_text 就是标题名 / 售价名,而test.html则是 页面的html,element_hierarchy 就是生成的规则,你需要保存下来.。

python 复制代码
if __name__ == "__main__":
    # 读取HTML内容
    with open('/test.html', 'r', encoding='utf-8') as file:
        html_content = file.read()
    # 实例化TextFinder
    finder = TextFinder(html_content)
    # 搜索文本
    search_text = "Material"
    # 找到包含该文本的元素
    element = finder.find_element_with_text(search_text)
    element_hierarchy = finder.get_element_hierarchy(element)
	element_hierarchy 

规则的使用

python 复制代码
# 示例用法
if __name__ == "__main__":
    # ... (之前的代码保持不变)

    # 层级关系的JSON数据
    json_hierarchy = '''
    [
        {"tag": "div", "attributes": {"id": "centerCol"}},
        {"tag": "div", "attributes": {"id": "productOverview_feature_div"}},
        {"tag": "div", "attributes": {"class": ["a-section", "a-spacing-small", "a-spacing-top-small"]}},
        {"tag": "table", "attributes": {"class": ["a-normal", "a-spacing-micro"]}},
        {"tag": "tr", "attributes": {"class": ["a-spacing-small", "po-material"]}},
        {"tag": "td", "attributes": {"class": ["a-span3"]}},
        {"tag": "span", "attributes": {"class": ["a-size-base", "a-text-bold"]}}
    ]
    '''

    # 根据层级关系找到元素
    found_element = finder.find_element_by_hierarchy(json_hierarchy)
    if found_element:
        print("Found Element:", finder.get_element_details(found_element))
    else:
        print("Element not found.")

这样你就可以根据规则拿到别的页面的元素了。使用自动化工具(针对反爬网址)或者 请求(没有1设置反爬的网站) 拿到html 然后去匹配规则即可。

开源时间

预计在2024-01-08日左右开源。欢迎大家到时候使用!

注: 不需要翻墙和付费(AI付费),届时放心食用。

相关推荐
IT_陈寒2 小时前
React 18实战:7个被低估的Hooks技巧让你的开发效率提升50%
前端·人工智能·后端
数据智能老司机3 小时前
精通 Python 设计模式——分布式系统模式
python·设计模式·架构
逛逛GitHub3 小时前
飞书多维表“独立”了!功能强大的超出想象。
人工智能·github·产品
机器之心4 小时前
刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
人工智能·openai
数据智能老司机4 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机4 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机4 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i5 小时前
drf初步梳理
python·django
每日AI新事件5 小时前
python的异步函数
python
这里有鱼汤6 小时前
miniQMT下载历史行情数据太慢怎么办?一招提速10倍!
前端·python