学术总结Ai Agent中firecrawl(大模型爬虫平台)的超简单的docker安装方式教程

之前开源了学术总结ai agent,但是对非计算机专业来说,门槛有点高,再加上docker hub镜像被屏蔽,更是不容易上手啊。也有考虑用dify或者扣子去复刻一个,但是从专业用户的角度出发通过界面来拖拽配置实在是不高效,没有自己写代码来的直接,但是对非计算机专业的用户确实不友好。为了降低一下门槛,稍微进行了改进。下面开始正文:

这个开源项目其中有个环节是利用firecrawl抓取论文,然后转成对大模型友好的LLM格式。这个firecrawl如果使用官方云服务是收费的,还有一种方式是本地跑开源的,但这个方式也挺麻烦,需要安装很多包因为网络屏蔽也很容易中断,因此假期抽空,打了个docker镜像共享出来。

如果你自己打镜像,可能遇到node依赖下载问题,go依赖下载问题,基础镜像无法下载。总之中国的网络你懂的。

firecrawl的功能很强大,还是先复习下:

抓取(Scrape):抓取一个URL并将其内容转换为LLM(大语言模型)友好的格式(如Markdown、通过LLM提取的结构化数据、截图、HTML)。

爬取(Crawl):抓取一个网页的所有URL并将其内容转换为LLM友好的格式。

映射(Map):输入一个网站,快速获取该网站的所有URL。

强大功能

  • LLM友好的格式:Markdown、结构化数据、截图、HTML、链接、元数据。
  • 复杂任务:代理、反机器人机制、动态内容(JS渲染)、输出解析、协调。
  • 自定义功能:排除标签、使用自定义头部绕过身份验证墙、设置最大爬取深度等。
  • 媒体解析:PDF、DOCX、图片等格式。
  • 可靠性优先:设计目的是确保无论数据抓取多么复杂,都能获取所需的数据。
  • 操作功能:点击、滚动、输入、等待等,提取数据之前的操作。

下载

「firecrawl-main.zip」链接:https://pan.quark.cn/s/11149b0e701e

解压

bash 复制代码
unzip firecrawl-main.zip

加载镜像

进入dockers目录执行一下命令

bash 复制代码
docker load -i firecrawl-api.tar
docker load -i firecrawl-playwright-service.tar
docker load -i firecrawl-worker.tar

启动镜像

进入上层目录,docker-compose.yaml所在的目录,输入

bash 复制代码
docker-compse up -d

如果你电脑没有这个命令,建议用大模型查一下怎么安装。

测试

输入http://localhost:3002/admin//queues,界面如下:

写demo测试抓取功能

这里可以参考官方说明:https://docs.firecrawl.dev/introduction

各位读者在使用过程中有啥问题可以留言,感谢,欢迎转发!

相关推荐
workflower6 分钟前
使用谱聚类将相似度矩阵分为2类
人工智能·深度学习·算法·机器学习·设计模式·软件工程·软件需求
.生产的驴7 分钟前
Docker 部署Nexus仓库 搭建Maven私服仓库 公司内部仓库
java·运维·数据库·spring·docker·容器·maven
知行029 分钟前
MySQL的Docker版本,部署在ubantu系统
数据库·mysql·docker
jndingxin10 分钟前
OpenCV CUDA 模块中在 GPU 上对图像或矩阵进行 翻转(镜像)操作的一个函数 flip()
人工智能·opencv
囚生CY20 分钟前
【速写】TRL:Trainer的细节与思考(PPO/DPO+LoRA可行性)
人工智能
杨德兴22 分钟前
3.3 阶数的作用
人工智能·学习
望获linux31 分钟前
医疗实时操作系统方案:手术机器人的微秒级运动控制
人工智能·机器人·实时操作系统·rtos·嵌入式软件·医疗自动化
搬砖的工人39 分钟前
Docker环境下的Apache NiFi安装实践踩坑记录
docker·容器·apache
仓颉编程语言1 小时前
仓颉Magic亮相GOSIM AI Paris 2025:掀起开源AI框架新热潮
人工智能·华为·开源·鸿蒙·仓颉编程语言
攻城狮7号1 小时前
一文理清人工智能,机器学习,深度学习的概念
人工智能·深度学习·机器学习·ai