文章抽取信息化 JSON API 接口

文章抽取信息化 JSON API 接口

接口详情官网地址: https://www.gugudata.com/api/details/article-extract

文章抽取信息化 JSON API 任意网页 URL 或 HTML 提取文章 JSON,网页处理、LLM等关键词场景常会用到,适合用于内容生成与智能处理、多语言文本工作流与知识服务与问答能力接入等业务场景,方便开发者直接在应用、脚本或数据流程中接入。

1. 产品功能

  • 支持从任意网页 URL 提取干净的文章内容;
  • 自动去除广告、导航栏和非内容元素;
  • 提取文章标题、内容、作者和发布日期;
  • 支持自定义解析器和获取选项;
  • 提供独立的 HTML 字符串提取接口(/ai/v1/articles/extractFromHtml);
  • 支持直接从 HTML 字符串提取;
  • 高质量的内容提取,智能解析;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;

2. API 文档

接口地址: https://api.gugudata.com/ai/v1/articles/extract

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/ai/v1/articles/extract?appkey=YOUR_APPKEY&url=YOUR_VALUE

数据预览: https://www.gugudata.com/preview/article-extract

接口测试: https://api.gugudata.com/ai/v1/articles/extract/demo

3. 请求参数

参数名 参数类型 是否必须 默认值 备注
appkey string YOUR_APPKEY 付费后获取的 APPKEY,可通过查询参数或请求体传递
url string YOUR_VALUE 需要提取文章内容的网页 URL 地址

4. 返回参数

参数名 参数类型 备注
DataStatus.StatusCode int 接口返回状态码
DataStatus.StatusDescription string 接口返回状态说明
DataStatus.ResponseDateTime string 接口数据返回时间
DataStatus.DataTotalCount int 此条件下的总数据量,一般用于分页计算
Data.url string 文章的源 URL
Data.title string 提取的文章标题
Data.description string 文章描述/摘要
Data.links array 文章中包含的链接数组
Data.image string 文章主图片 URL
Data.content string 提取的文章内容(HTML 格式,已去除广告和导航栏)
Data.author string 文章作者(如果可用,可能为空字符串)
Data.favicon string 网站图标 URL
Data.source string 来源网站域名(如 sohu.com)
Data.published string 文章发布日期/时间(格式:YYYY-MM-DD HH:MM)
Data.ttr int 预计阅读时间(Time to Read,单位:分钟)
Data.type string 文章类型(如 news、article 等)

5. 错误码说明

状态码 错误说明 备注
100 正常返回 文章成功提取
101 参数错误 无效或缺少必需参数(url 参数是必需的)
102 请求频率受限 每秒请求不能超过 100 次
103 账号欠费 -
104 APPKEY 错误 请检查传递的 APPKEY 是否为开发者中心获取到的值
110 接口响应错误 文章提取过程中发生内部服务器错误。URL 可能无法访问或内容格式可能不受支持

6. 适用场景

  • 适合用于内容生成与智能处理,快速补齐产品侧需要的 文章抽取信息化 JSON 数据能力。
  • 适合用于多语言文本工作流,减少手工整理、清洗与重复开发成本。
  • 适合用于知识服务与问答能力接入,将接口结果直接接入后台系统、数据任务或内容处理流程。

7. 相关接口

相关推荐
星空椰13 小时前
从零到实战:一套完整的 Python 爬虫技术体系(requests + BeautifulSoup + 正则 + JSON)
爬虫·python·json·beautifulsoup
A__tao20 小时前
JSON 转 Proto 工具(支持嵌套与注释解析)
json
A__tao1 天前
JSON 转 Java 实体类工具(支持嵌套与注释解析)
java·python·json
迷路爸爸1801 天前
VSCode / Cursor 中 LaTeX Workshop 的 settings.json 配置:编译与 SyncTeX 跳转
ide·vscode·json·latex
吴声子夜歌2 天前
Node.js——JSON-Server轻量级RESTful API
node.js·json·restful·json-server
呆萌的代Ma2 天前
解决n8n的输入内容报错JSON parameter needs to be valid JSON
json·n8n
ID_180079054735 天前
Python 实现亚马逊商品详情 API 数据准确性校验(极简可用 + JSON 参考)
java·python·json
代码AI弗森5 天前
配置文件战争:TOML/YAML/JSON 为何成为不同框架的“专属标配”?
json
lifewange5 天前
CNode API v1 完整接口文档(JSON 规范整理)
java·前端·json
测试修炼手册6 天前
[测试技术] 深入理解 JSON Web Token (JWT)
前端·json