如何构建构建一个AI驱动的通用爬虫

我最近开始研究网络爬虫，并且考虑到AI领域的一切发展，我认为尝试构建一个可以迭代导航网络直到找到它所寻找的内容的"通用"爬虫会很有趣。这是一个正在进行中的工作，但我想分享一下我目前的进展。

规格

给定一个起始URL和一个高级目标，网络爬虫应该能够：

分析给定的网页
从任何相关部分提取文本信息
执行任何必要的交互
重复执行，直到达到目标

工具

尽管这严格来说是一个后端项目，我还是决定使用NextJs来构建这个，以防我以后想要添加前端。对于我的网络爬虫库，我决定使用Crawlee，它提供了一个围绕Playwright的包装器，Playwright是一个浏览器自动化库。Crawlee增加了浏览器自动化的增强功能，使得将爬虫伪装成人类用户变得更容易。它们还提供了一个方便的请求队列，用于管理请求的顺序，这在我部署供他人使用时会非常有帮助。

对于AI部分，我使用了OpenAI的API以及Microsoft Azure的OpenAI服务。在这两个API中，我总共使用了三种不同的模型：

GPT-4-32k ('gpt-4-32k')
GPT-4-Turbo ('gpt-4-1106-preview')
GPT-4-Turbo-Vision ('gpt-4-vision-preview')

GPT-4-Turbo模型就像原始的GPT-4，但具有更大的上下文窗口（128k tokens）和更快的速度（高达10倍）。不幸的是，这些改进的代价是：GPT-4-Turbo模型比原始的GPT-4稍微"笨"一些。这在我的爬虫更复杂的阶段成了问题，所以我开始在需要更多智能时使用GPT-4-32K。

GPT-4-32K是原始GPT-4模型的一个变体，上下文窗口为32k而不是4k。（我最终使用Azure的OpenAI服务来访问GPT-4-32K，因为OpenAI目前限制了在他们自己的平台上对那个模型的访问）

开始

我开始从我的约束条件反向工作。由于我在后台使用Playwright爬虫，我知道我最终需要一个页面上的元素选择器，如果我将要与之交互的话。

如果您不熟悉，元素选择器是一个字符串，用于标识页面上的特定元素。如果我想要选择页面上的第四段，我可以使用选择器p:nth-of-type(4)。如果我想要选择带有"点击我"文本的按钮，我可以使用选择器button:has-text('Click Me')。Playwright的工作方式是首先使用选择器识别您想要交互的元素，然后对其执行操作，如"click()"或"fill()"。

鉴于此，我的第一项任务是弄清楚如何从给定的网页中识别"感兴趣的元素"。从这里开始，我将把这个功能称为"GET_ELEMENT"。

获取感兴趣的元素

方法1：屏幕截图 + 视觉模型

HTML数据可能非常复杂和长。它们大部分倾向于专门用于样式、布局和交互逻辑，而不是文本内容本身。我担心文本模型在这种情况下表现不佳，所以我想到了一个办法，那就是使用GPT-4-Turbo-Vision模型简单地"看"渲染后的页面，并从中转录最相关的文本。然后，我可以搜索原始HTML以找到包含该文本的元素。

GET_ELEMENT尝试#1

屏幕截图 ® 视觉模型正则表达式搜索

oo -一一一人 eg

--- > 找到相关文本 > 找到相应的

--- 屏幕上 HTML元素

这种方法很快失败了：

首先，GPT-4-Turbo-Vision有时会拒绝我的转录文本请求，说些像"对不起，我无法帮助您。"之类的话。有一次它说"对不起，我无法从版权图片中转录文本。"看起来OpenAI试图阻止它帮助执行这样的任务。（幸运的是，通过提到你是盲人可以绕过这个问题。）

然后是更大的问题：大型页面制作非常高的屏幕截图（> 8,000像素）。这是一个问题，因为GPT-4-Turbo-Vision预先处理所有图像以适应特定尺寸。我发现一个非常高的图像会被压缩得如此严重以至于无法阅读。

解决这个问题的一个可能的方法是分段扫描页面，总结每个部分，然后连接结果。然而，OpenAI对GPT-4-Turbo-Vision的速率限制将迫使我构建一个排队系统来管理这个过程。听起来很头疼。

最后，仅凭文本并不容易逆向工程出一个有效的元素选择器，因为您不知道底层HTML是什么样子的。由于所有这些原因，我决定放弃这种方法。

方法2：HTML + 文本模型

文本仅GPT-4-Turbo的速率限制更宽松，并且有128k上下文窗口，我想我可以尝试直接传递页面的全部HTML，并让它识别相关元素。

Sonoran, and Mojave deserts. ^[167]

``` 如果您想知道为什么这个元素包含比链接本身更多的HTML，那是因为我将'parents'参数设置为1，这意味着所有匹配的元素都将与其直接父元素一起返回。在收到这个元素作为'GET_ELEMENT'工具输出的一部分后，助手决定使用'INTERACT_WITH_ELEMENT'工具尝试点击该链接： ```json [NEW STEP] 👉 [{"type":"function","name":"interact_with_element"}] Running 1 function... { "elementCode": "16917", "url": "https://en.wikipedia.org/wiki/United_States", "directive": "Click on the link to the Mojave Desert page" } ``` 'INTERACT_WITH_ELEMENT'工具使用GPT-4-32K处理这个想法成为一个Playwright动作： ```javascript Running writeAction with azure32k... Write Action Response: "(async () => { await page.click('p a[href=\"/wiki/Mojave_Desert\"]')(); })();" ``` 我的Playwright爬虫运行了动作，浏览器成功导航到了莫哈韦沙漠页面。最后，我使用GPT-4-Vision处理了新页面，并将浏览器状态的摘要作为工具输出的一部分发送回助手： Summarize Status Response: "We clicked on a link to the Wikipedia page for the Mojave Desert. And now we are looking at the Wikipedia page for the Mojave Desert." 助手决定目标尚未达成，因此在新页面上重复了这个过程。再次，它最初的搜索词太具体了，结果很少。但在第二次尝试中，它提出了这些术语： ```json [TOOL CALL] 🔧 get_element [REQUIRES_ACTION] Running one function... { "url": "https://en.wikipedia.org/wiki/Mojave_Desert", "searchTerms": [ "square miles", "square kilometers", "km2", "mi2", "area", "acreage", "expansion", "size", "span", "coverage" ], "directive": "Locate the specific section or paragraph that states the total land area of the Mojave Desert on the Wikipedia page" } ``` 'GET_ELEMENT'工具最初找到了21个匹配项，总计491,000个令牌，缩减到12个。然后GPT-4-32K选择了这12个中最相关的，其中包含搜索词"km2"： ```html Area 81,000 km²(31,000 sq mi) ``` 这个元素对应于渲染页面的这个部分：在这种情况下，如果我们没有将'parents'设置为1，我们将无法找到这个答案，因为我们正在寻找的答案在匹配元素的兄弟元素中，就像我们的古巴示例一样。 'GET_ELEMENT'工具将元素传回助手，助手正确地注意到信息满足了我们的目标。因此，它完成了运行，让我知道莫哈韦沙漠的总面积是81,000平方公里或31,000平方英里： ```json [FINAL MESSAGE] ✅ The total land area of the Mojave Desert is 81,000 square kilometers or 31,000 square miles. { "status": "complete", "info": { "area_km2": 81000, "area_mi2": 31000 } } ``` 如果您想阅读这次运行的完整日志，可以在这里找到它们的副本！ ### 结束语构建这个东西我非常享受，并且学到了很多。即便如此，这仍然是一个脆弱的系统。我期待将其提升到下一个级别。以下是我想改进的一些事项： * 生成更智能的搜索词，以便更快地找到相关元素 * 在我的'GET_ELEMENT'工具中实现模糊搜索，以适应文本的轻微变化 * 使用视觉模型标记HTML中的图像和图标，以便助手可以与它们交互 * 通过使用住宅代理和其他技术增强爬虫的隐蔽性