Scrapeless Crawl:规模化网络数据抓取与爬行解决方案

做市场分析的时候,有时候爬取几百个竞品网页就折腾了好几天,手动设置规则还老漏数据... 朋友给我介绍了 Crawl 才知道什么叫真香!它的智能递归抓取就像开了 "自动导航",不用自己一层一层点链接,系统会顺着网页关联自动深挖,连隐藏在二级页面的用户评论都能给你扒得明明白白,再也不用怕漏掉关键数据。

💡即将推出:通过 AI LLM Gateway 进行数据提取和摘要,支持与开源框架和可视化工作流的无缝集成------解决 AI 开发者面临的网络内容挑战。

什么是 Crawl

Crawl不仅仅是一个简单的数据抓取工具,而是一个集抓取和爬取功能于一体的综合平台。

  • 批量爬取:支持大规模单页面爬取和递归爬取。

  • 多格式交付 :兼容 JSONMarkdownMetadataHTMLLinksScreenshot 格式。

  • 反检测抓取 :我们独立开发的 Chromium 内核,实现高自定义、会话管理和反检测能力,如 指纹配置解决 CAPTCHA隐身模式代理轮换,以绕过网站阻止。

  • 自开发的 Chromium 驱动:由我们的 Chromium 内核驱动,实现高自定义、会话管理和自动 CAPTCHA 解决。

    1. 自动 CAPTCHA 解决器 :自动处理常见 CAPTCHA 类型,包括 reCAPTCHA v2Cloudflare Turnstile/Challenge

    2. 会话录制和回放:会话回放帮助您通过录制回放轻松检查操作和请求,逐步回顾以快速理解操作,解决问题和改进流程。

    3. 并发优势 :与其他严格限制并发的爬虫不同,Crawl 的 基础计划 支持 50 并发 ,而 高级计划 则支持 无限并发

    4. 节省成本 :在具有反爬虫措施的网站上表现优于竞争对手,提供显著的免费验证码解决优势------预计 节省 70% 成本。

利用先进的数据抓取和处理能力,Crawl 确保提供结构化的 实时搜索数据。这使企业和开发者始终保持领先于市场趋势,优化数据驱动的自动化工作流,并快速调整市场策略。

用 Crawl 解决复杂数据挑战:更快、更智能、更高效

对于需要可靠大规模网络数据的开发者和企业,Crawl 还提供:
✔ 高速数据抓取 -- 在几秒钟内从多个网页检索数据
✔ 无缝集成 -- 即将与开源框架和可视化工作流集成,如 LangchainN8nClayPipedreamMake 等。
✔ 地理定位代理 -- 内置支持 195 个国家 的代理
✔ 会话管理 -- 智能管理会话,并实时查看 LiveURL 会话

如何使用 Crawl

Crawl API 通过在一次调用中从网页中提取特定内容或递归爬取整个网站及其链接以收集所有可用数据,简化了数据抓取,并支持多种格式。

Scrapeless 提供端点以启动抓取请求并检查其状态/结果。默认情况下,抓取为异步:首先启动任务,然后监控其状态直到完成。然而,我们的 SDK 包含一个简单的功能,处理整个过程并在任务完成时返回数据。

安装

使用 NPM 安装 Scrapeless SDK:

bash 复制代码
npm install @scrapeless-ai/sdk

使用 PNPM 安装 Scrapeless SDK:

sql 复制代码
pnpm add @scrapeless-ai/sdk

抓取单个页面

在一次调用中从网页抓取特定数据(例如,产品详情、评论)。

用法

javascript 复制代码
import { Scrapeless } from "@scrapeless-ai/sdk";

// 初始化客户端
const client = new Scrapeless({
  apiKey: "your-api-key", // 从 https://scrapeless.com 获取您的 API 密钥
});

(async () => {
  const result = await client.scrapingCrawl.scrape.scrapeUrl(
    "https://example.com"
  );

  console.log(result);
})();

浏览器配置

您可以自定义抓取的会话设置,例如使用代理,就像创建新的浏览器会话一样。

Scrapeless 自动处理常见的 CAPTCHA,包括 reCAPTCHA v2Cloudflare Turnstile/Challenge ------无需额外设置,详情请参见 CAPTCHA 解决方案

探索所有浏览器参数,请查看 API 参考浏览器参数

JavaScript

php 复制代码
import { Scrapeless } from "@scrapeless-ai/sdk";

// 初始化客户端
const client = new Scrapeless({
  apiKey: "your-api-key", // 请从 https://scrapeless.com 获取您的 API 密钥
});

(async () => {
  const result = await client.scrapingCrawl.scrapeUrl(
    "https://example.com",
    {
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

抓取配置

抓取任务的可选参数包括输出格式,过滤仅返回主要页面内容,设置页面导航的最大超时时间。

JavaScriptCopy

javascript 复制代码
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// 初始化客户端
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // 请从 https://scrapeless.com 获取您的 API 密钥
});

(async () => {
  const result = await client.scrapeUrl(
    "https://example.com",
    {
      formats: ["markdown", "html", "links"],
      onlyMainContent: false,
      timeout: 15000,
    }
  );

  console.log(result);
})();

有关抓取端点的完整参考,请查看 API 参考

批量抓取

批量抓取的工作方式与常规抓取相同,除了可以提供一个要一次性抓取的 URL 列表。

JavaScript

php 复制代码
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// 初始化客户端
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // 请从 https://scrapeless.com 获取您的 API 密钥
});

(async () => {
  const result = await client.batchScrapeUrls(
    ["https://example.com", "https://scrapeless.com"],
    {
      formats: ["markdown", "html", "links"],
      onlyMainContent: false,
      timeout: 15000,
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

爬取子页面

爬取 API 支持递归爬取网站及其链接,以提取所有可用数据。

有关详细用法,请查阅爬取 API 参考

使用

使用递归爬取来探索整个域及其链接,提取每一项可访问的数据。

JavaScript

php 复制代码
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// 初始化客户端
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // 请从 https://scrapeless.com 获取您的 API 密钥
});

(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      scrapeOptions: {
        formats: ["markdown", "html", "links"],
        onlyMainContent: false,
        timeout: 15000,
      },
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

响应

JavaScriptCopy

swift 复制代码
{
  "success": true,
  "status": "completed",
  "completed": 2,
  "total": 2,
  "data": [
    {
      "url": "https://example.com",
      "metadata": {
        "title": "示例页面",
        "description": "一个示例网页"
      },
      "markdown": "# 示例页面\n这是内容...",
      ...
    },
    ...
  ]
}

每个被爬取页面都有 completedfailed 状态,并可能有各自的错误字段,因此需要注意。

要查看完整的架构,请查阅 API 参考

浏览器配置

自定义抓取任务的会话配置遵循与创建新浏览器会话相同的过程。可用选项包括代理配置。要查看所有支持的会话参数,请查阅 API 参考浏览器参数

JavaScript

php 复制代码
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// 初始化客户端
const client = new ScrapingCrawl({
  apiKey: "your-api-key", // 请从 https://scrapeless.com 获取您的 API 密钥
});

(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      browserOptions: {
        proxy_country: "ANY",
        session_name: "Crawl",
        session_recording: true,
        session_ttl: 900,
      },
    }
  );

  console.log(result);
})();

抓取配置

参数可能包括输出格式、过滤器以仅返回主要页面内容,以及页面导航的最大超时设置。

JavaScript

php 复制代码
import { ScrapingCrawl } from "@scrapeless-ai/sdk";

// 初始化客户端
const client = new ScrapingCrawl({
apiKey: "你的API密钥", // 从https://scrapeless.com获取你的API密钥
});

(async () => {
  const result = await client.crawlUrl(
    "https://example.com",
    {
      limit: 2,
      scrapeOptions: {
        formats: ["markdown", "html", "links"],
        onlyMainContent: false,
        timeout: 15000,
      }
    }
  );

  console.log(result);
})();

有关爬取端点的完整参考,请查看API参考

探索爬虫的多样化应用场景

为开发人员提供了一个内置的游乐场,以测试和调试其代码,您可以利用Crawl进行任何抓取需求,例如:

  • 产品信息抓取
    从电子商务网站抓取关键数据,包括产品名称、价格、用户评分和评论数量。全面支持产品监控,帮助企业做出明智的决策。
  • 论坛帖子爬取
    使用精确控制爬取深度和广度,以捕获主要帖子内容和子页面评论,确保全面了解社区讨论。

现在尽情享受爬虫和抓取吧!

经济实惠,满足各种需求:起价为$1.8/GB,不是按页收费

以我们的基于Chromium的抓取工具超越竞争对手,定价模型结合了代理数量和小时费率,相较于按页计费模式,最大限度提供高达70%的成本节省针对大规模数据项目。

立即注册试用并获取强大的网络工具包。

相关推荐
广州山泉婚姻1 小时前
智慧零工平台后端开发进阶:Spring Boot 3结合MyBatis-Flex的技术实践与优化【无标题】
人工智能·爬虫·spring
大猫95276 小时前
抖音(Dy)关键词搜索爬虫实现方案
爬虫
是梦终空18 小时前
Python毕业设计226—基于python+爬虫+html的豆瓣影视数据可视化系统(源代码+数据库+万字论文)
爬虫·python·html·毕业设计·毕业论文·源代码·豆瓣影视数据可视化
谢李由2023032208119 小时前
网络爬虫学习心得
爬虫·python
广州山泉婚姻1 天前
高并发场景下的智慧零工平台开发:Spring Boot 3+MyBatis-Flex架构深度实践
分布式·爬虫·云原生
waterHBO1 天前
( github actions + workflow 01 ) 实现爬虫自动化,每2小时爬取一次澎湃新闻
爬虫·自动化·github
q567315231 天前
Java使用Selenium反爬虫优化方案
java·开发语言·分布式·爬虫·selenium
不叫猫先生1 天前
Bright Data网页抓取工具实战:BOSS直聘爬虫 + PandasAI分析洞察前端岗位市场趋势
爬虫·python·ai·代理
华科云商xiao徐1 天前
用Rust如何构建高性能爬虫
爬虫·rust