【大模型系列】更像人类行为的爬虫框架

随着大规模模型技术的兴起，我们可以看到百模大战、各种智能体、百花齐放的应用场景，那么作为一名前端开发者，以前端的视角，我们应当如何积极做好技术储备，开拓技术视野，在智能体时代保持一定的竞争力呢？我尝试通过一系列文章来总结一下！

前言

可能很多人会好奇，你写爬虫就写爬虫为啥要和大模型扯上关系，明显的蹭热点吧。其实我们在做大模型应用时，比如问答系统、内容生成等应用时，通常会用到检索增强生成 (RAG) 技术，标准 RAG（以智能问答🌰）流程图如下，大致分为以下几个步骤：

离线部分

知识库：数据从各种来源收集并存储在知识库中。
清洗、装载：数据进行预处理和清洗，以确保数据质量、清洗后的数据被装载为文档。
文档：将预处理后的数据组织成文档格式。
切分：将文档切分成更小的段（chunks），以便后续处理。
向量化：将切分后的文档段通过向量模型转换为向量表示。
向量数据库：向量化的文档段存储在向量数据库中，便于快速检索。

在线部分

用户请求：用户发出查询请求。
Prompt：用户的请求被处理为一个prompt，准备进行向量化。
向量化：用户请求的prompt通过向量模型转换为向量表示。
相似度查询：根据向量化的用户请求在向量数据库中进行相似度查询，检索相关的文档段。
提取相关知识：检索到的相关文档段作为背景知识注入到提示词模板中。
提示词模板：将检索到的背景知识与用户请求结合，生成完整的提示词。
LLM（大型语言模型）：使用提示词生成最终的回答或内容。
返回用户：最终的生成内容返回给用户。

我们可以看到，我们的回答是否准确，是否具备差异性，来源于我们的知识库内容的丰富程度和相关性。而知识库内容的获取途径，其中重要的组成部分就是爬虫。

关键概念

如果你以前了解过爬虫相关概念，在讲到爬虫的时候，脑子里蹦出来的会有以下关键词

JS 渲染（JavaScript Rendering）

在现代网页中，很多内容是通过 JavaScript 动态加载和渲染的。这意味着传统的静态网页爬虫（如直接抓取 HTML 内容的爬虫）可能无法获取这些动态加载的内容。因此，爬虫需要具备执行 JavaScript 的能力，以便能够完全渲染页面并获取所有需要的数据。

无头浏览器（Headless Browsers）

无头浏览器是一种在没有图形用户界面的环境中运行的浏览器。这类浏览器能够执行 JavaScript，并可以模拟用户在浏览器中的操作，如点击、输入文本和滚动页面。常用的无头浏览器有 Puppeteer 和 Playwright，它们基于 Chrome 和 Firefox 等主流浏览器内核，提供了强大的网页自动化和爬取功能。

等待元素渲染（Waiting for Elements to Render）

由于网页内容可能是动态加载的，爬虫在抓取页面内容时需要等待特定元素加载完成。无头浏览器通常提供了等待元素出现的方法（如 waitForSelector），以确保页面完全加载后再进行数据提取。这样可以避免抓取到不完整的内容或空白页面。

代理服务器（Proxy Server）

为了防止被目标网站封禁和提高爬取效率，爬虫通常会使用代理服务器。代理服务器可以隐藏爬虫的真实 IP 地址，并通过轮换多个代理 IP 来模拟不同的访问来源，避免爬取行为被检测到并封禁。使用代理服务器还能绕过地理限制，访问特定区域的网站内容。

接下来我给大家介绍一个爬虫框架，并实现一个简单的例子，让大家了解下这个框架。

【大模型系列】更像人类行为的爬虫框架

前言

关键概念

功能介绍