5分钟制作可直接导入GPTs知识库中的自动爬虫

它能从一个或多个网址爬取网站内容,然后生成JSON文件格式。这样爬取的内容可以直接导入到GPTs知识库中,方便你创建自定义知识库的GPTs。比如你有自己的网站或者资料库,但是整理起来太麻烦,就可以使用这个工具。

主要功能:

  • 爬取网站内容:用户通过配置文件设置目标网址和选择器,GPT-Crawler 自动从这些网站上收集信息。

  • 生成知识文件:爬取的内容被整理成 JSON 文件,这个文件包含了从网站上获取的所有知识。

  • 创建自定义 GPT:利用这个知识文件,用户可以在 OpenAI 平台上创建自己定制的 GPT 聊天机器人。

  • 也可以使用爬取的内容创建Assistant自定义助手,这样你就可以通过一个 API来访问这些生成的知识。可以将这些知识集成到你自己的产品或应用中去。

简单来说,就是提供了一种方式,让你能够在你的软件或产品中使用这些爬取并整理好的知识。

具体步骤:

确保您已安装 Node.js 版本大于等于 16

克隆存储库

git clone https://github.com/builderio/gpt-crawler

安装依赖项

npm i

如果您没有安装 Playwright:

npx playwright install

配置爬虫

打开 config.ts 文件并编辑 url 和 selectors 属性以满足您的需求。

例如,要爬取 Builder.io 文档以创建我们自定义的 GPT,您可以使用:

export const config: Config = {url: "https://www.builder.io/c/docs/developers",match: "https://www.builder.io/c/docs/\*\*",selector: `.docs-builder-container`,maxPagesToCrawl: 50,outputFileName: "output.json",};

查看文件顶部的类型定义,了解您可以配置的内容:

type Config = {/** URL to start the crawl */url: string;/** Pattern to match against for links on a page to subsequently crawl */match: string;/** Selector to grab the inner text from */selector: string;/** Don't crawl more than this many pages */maxPagesToCrawl: number;/** File name for the finished data */outputFileName: string;/** Optional function to run for each page found */onVisitPage?: (options: {page: Page;pushData: (data: any) => Promise<void>;}) => Promise<void>;/** Optional timeout for waiting for a selector to appear */waitForSelectorTimeout?: number;};

运行爬虫

npm start

上传你的数据到OpenA I

爬取将在项目的根目录生成一个名为 output.json 的文件。将其上传到 OpenAI 以创建您的自定义助手或自定义 GPT。

创建自定义 GPT 使用此选项可以通过用户界面访问您生成的知识,并轻松与他人共享

注意:您可能需要一个付费的 ChatGPT 计划来创建和使用自定义 GPT。

1.前往https://chat.openai.com/

2.单击左下角的您的姓名

3.在菜单中选择"我的 GPT"

4.选择"创建一个 GPT"

5.选择"配置"

6.在"知识"下选择"上传文件"并上传您生成的文件

创建自定义助手

使用此选项可以通过 API 访问生成的知识,以便将其集成到您的产品中。

1.前往https://platform.openai.com/assistants

2.单击"+ 创建"

3.选择"上传"并上传您生成的文件

相关推荐
千宇宙航1 小时前
闲庭信步使用SV搭建图像测试平台:第三十一课——基于神经网络的手写数字识别
图像处理·人工智能·深度学习·神经网络·计算机视觉·fpga开发
onceco1 小时前
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)
人工智能·python·深度学习·语言模型·自然语言处理·自动化
jndingxin4 小时前
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值
人工智能·opencv·计算机视觉
Sweet锦4 小时前
零基础保姆级本地化部署文心大模型4.5开源系列
人工智能·语言模型·文心一言
hie988945 小时前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab
晨同学03275 小时前
opencv的颜色通道问题 & rgb & bgr
人工智能·opencv·计算机视觉
蓝婷儿5 小时前
Python 机器学习核心入门与实战进阶 Day 3 - 决策树 & 随机森林模型实战
人工智能·python·机器学习
大千AI助手6 小时前
PageRank:互联网的马尔可夫链平衡态
人工智能·机器学习·贝叶斯·mc·pagerank·条件概率·马尔科夫链
小和尚同志6 小时前
Cline | Cline + Grok3 免费 AI 编程新体验
人工智能·aigc
我就是全世界6 小时前
TensorRT-LLM:大模型推理加速的核心技术与实践优势
人工智能·机器学习·性能优化·大模型·tensorrt-llm