学术总结Ai Agent中firecrawl(大模型爬虫平台)的超简单的docker安装方式教程

之前开源了学术总结ai agent,但是对非计算机专业来说,门槛有点高,再加上docker hub镜像被屏蔽,更是不容易上手啊。也有考虑用dify或者扣子去复刻一个,但是从专业用户的角度出发通过界面来拖拽配置实在是不高效,没有自己写代码来的直接,但是对非计算机专业的用户确实不友好。为了降低一下门槛,稍微进行了改进。下面开始正文:

这个开源项目其中有个环节是利用firecrawl抓取论文,然后转成对大模型友好的LLM格式。这个firecrawl如果使用官方云服务是收费的,还有一种方式是本地跑开源的,但这个方式也挺麻烦,需要安装很多包因为网络屏蔽也很容易中断,因此假期抽空,打了个docker镜像共享出来。

如果你自己打镜像,可能遇到node依赖下载问题,go依赖下载问题,基础镜像无法下载。总之中国的网络你懂的。

firecrawl的功能很强大,还是先复习下:

抓取(Scrape):抓取一个URL并将其内容转换为LLM(大语言模型)友好的格式(如Markdown、通过LLM提取的结构化数据、截图、HTML)。

爬取(Crawl):抓取一个网页的所有URL并将其内容转换为LLM友好的格式。

映射(Map):输入一个网站,快速获取该网站的所有URL。

强大功能

  • LLM友好的格式:Markdown、结构化数据、截图、HTML、链接、元数据。
  • 复杂任务:代理、反机器人机制、动态内容(JS渲染)、输出解析、协调。
  • 自定义功能:排除标签、使用自定义头部绕过身份验证墙、设置最大爬取深度等。
  • 媒体解析:PDF、DOCX、图片等格式。
  • 可靠性优先:设计目的是确保无论数据抓取多么复杂,都能获取所需的数据。
  • 操作功能:点击、滚动、输入、等待等,提取数据之前的操作。

下载

「firecrawl-main.zip」链接:https://pan.quark.cn/s/11149b0e701e

解压

bash 复制代码
unzip firecrawl-main.zip

加载镜像

进入dockers目录执行一下命令

bash 复制代码
docker load -i firecrawl-api.tar
docker load -i firecrawl-playwright-service.tar
docker load -i firecrawl-worker.tar

启动镜像

进入上层目录,docker-compose.yaml所在的目录,输入

bash 复制代码
docker-compse up -d

如果你电脑没有这个命令,建议用大模型查一下怎么安装。

测试

输入http://localhost:3002/admin//queues,界面如下:

写demo测试抓取功能

这里可以参考官方说明:https://docs.firecrawl.dev/introduction

各位读者在使用过程中有啥问题可以留言,感谢,欢迎转发!

相关推荐
木卯彳亍40 分钟前
番外-linux系统运行.net framework 4.0的项目
linux·docker·.net
肥猪猪爸41 分钟前
BP神经网络对时序数据进行分类
人工智能·深度学习·神经网络·算法·机器学习·分类·时序数据
Keep learning!44 分钟前
深度学习入门代码详细注释-ResNet18分类蚂蚁蜜蜂
人工智能·深度学习·分类
Liudef062 小时前
神经辐射场 (NeRF):重构三维世界的AI新视角
人工智能·重构
音视频牛哥2 小时前
打造实时AI视觉系统:OpenCV结合RTSP|RTMP播放器的工程落地方案
人工智能·opencv·计算机视觉·大牛直播sdk·rtsp播放器·rtmp播放器·android rtmp
归去_来兮3 小时前
生成式对抗网络(GAN)模型原理概述
人工智能·深度学习·生成对抗网络
退役小学生呀3 小时前
十一、K8s细粒度权限管理RBAC
linux·docker·云原生·容器·kubernetes·k8s
在努力的韩小豪4 小时前
如何从0开始构建自己的第一个AI应用?(Prompt工程、Agent自定义、Tuning)
人工智能·python·llm·prompt·agent·ai应用·mcp
云卓SKYDROID4 小时前
无人机环境感知系统运行与技术难点!
人工智能·计算机视觉·目标跟踪·无人机·科普·高科技·云卓科技
是小崔啊4 小时前
【爬虫】- 爬虫原理及其入门
爬虫