r.jina.ai 使用指南:一键提取网页核心内容

提取网页内容

r.jina.ai 使用指南:一键提取网页核心内容

无需代码、无需注册,让任意网页变成 AI 友好的干净文本


简介

r.jina.ai 是由 Jina AI 提供的免费网页内容提取服务。它能在几秒钟内将复杂的网页转换为结构清晰、易于阅读的 Markdown 格式,自动去除广告、导航栏、弹窗等干扰元素。

r.jina.ai 都能帮你快速获取网页的核心信息。


一、基础用法:三步上手

第 1 步:复制目标网页链接

找到你想提取内容的网页,复制完整的 URL。

复制代码
例如:https://github.com/MoonshotAI/Kimi-K2.5/blob/master/README.md

第 2 步:在 URL 前添加 r.jina.ai/

复制代码
https://r.jina.ai/https://github.com/MoonshotAI/Kimi-K2.5/blob/master/README.md

第 3 步:访问新链接

在浏览器中打开组合后的链接,即可看到提取后的干净内容。


二、输出格式说明

r.jina.ai 默认返回 Markdown 格式 的内容,包含以下结构:

markdown 复制代码
# 文章标题

> 元数据(作者、发布时间等)

## 正文标题

正文段落内容...

### 子标题

- 列表项 1
- 列表项 2

> 引用块内容

![图片描述](图片链接)

特点

特性 说明
✅ 保留格式 标题层级、列表、代码块、引用等
✅ 提取图片 保留文章中的关键图片
✅ 去除噪音 自动过滤广告、导航、评论区等
✅ 处理动态内容 支持 JavaScript 渲染的网页

三、进阶技巧

技巧 1:通过 API 调用

除了直接在浏览器使用,你还可以通过程序调用:

cURL 示例:

bash 复制代码
curl https://r.jina.ai/http://example.com

Python 示例:

python 复制代码
import requests

url = "https://r.jina.ai/http://example.com"
response = requests.get(url)
content = response.text
print(content)

技巧 2:配合 AI 工具使用

提取的 Markdown 内容可以直接发送给 Claude、GPT 等 AI 助手:

复制代码
请帮我总结以下网页的核心观点:

---
[paste r.jina.ai 提取的内容]
---

技巧 3:批量处理多个链接

如果你需要处理多个网页,可以编写简单的脚本:

python 复制代码
import requests
import time

urls = [
    "https://example.com/article-1",
    "https://example.com/article-2",
    "https://example.com/article-3"
]

for url in urls:
    jina_url = f"https://r.jina.ai/{url}"
    response = requests.get(jina_url)
    
    # 保存到文件
    filename = url.split('/')[-1] + ".md"
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(response.text)
    
    print(f"已保存: {filename}")
    time.sleep(1)  # 礼貌性地间隔 1 秒

四、实际应用场景

场景 1:快速阅读长文

遇到一篇感兴趣的深度文章,但时间有限?

  1. r.jina.ai 提取内容
  2. 发送给 AI:"请用 3 句话总结这篇文章的核心观点"

场景 2:为 AI 提供上下文

当需要让 AI 分析某个网页时:

复制代码
基于以下网页内容,分析作者的观点和论据:

[粘贴 r.jina.ai 提取的内容]

场景 3:内容存档与笔记

将重要文章转换为 Markdown,存入 Obsidian、Notion 等笔记软件:

  1. r.jina.ai 提取内容
  2. 复制 Markdown
  3. 粘贴到笔记软件,添加个人批注

四、使用限制与注意事项

免费版限制

项目 说明
速率限制 建议不要高频并发请求
内容长度 超长网页可能会被截断
登录内容 无法提取需要登录才能查看的内容

最佳实践

  1. 尊重版权 --- 提取的内容仅供个人学习使用
  2. 检查完整性 --- 复杂网页建议人工核对提取结果
  3. 礼貌使用 --- 批量处理时添加适当延迟

五、相关工具推荐

工具 用途 链接
r.jina.ai 网页内容提取 https://r.jina.ai
s.jina.ai 搜索 + 内容提取 https://s.jina.ai
g.jina.ai 搜索结果事实核查 https://g.jina.ai

结语

r.jina.ai 是一个简单却强大的工具,它解决了"如何让 AI 读懂网页"这个痛点。无论你是做研究、写博客,还是日常阅读,它都能帮你节省大量时间。

现在就试试: 打开浏览器,在任意文章链接前加上 https://r.jina.ai/,体验一键提取的便捷!


💡 小提示:把这个链接格式加入浏览器书签,随时快速提取网页内容。


相关推荐
Elastic 中国社区官方博客2 天前
Jina embeddings v3 现已在 Gemini Enterprise Agent Platform Model Garden 上可用
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
Elastic 中国社区官方博客10 天前
使用 Jina 远程 MCP 服务器的 Agentic 工作流
大数据·运维·人工智能·elasticsearch·搜索引擎·运维开发·jina
Elastic 中国社区官方博客14 天前
使用 Elasticsearch + Jina embeddings 进行无监督文档聚类
大数据·人工智能·elasticsearch·搜索引擎·全文检索·jina
Elastic 中国社区官方博客16 天前
使用 Jina-VLM 小型多语言视觉语言模型来和图片对话
大数据·人工智能·elasticsearch·语言模型·自然语言处理·jina
Elastic 中国社区官方博客17 天前
Elasticsearch:运用 JINA 来实现多模态搜索的 RAG
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
熊猫钓鱼>_>1 个月前
Playwright与Puppeteer实战教程:让AI拥有“看懂“网页的能力
人工智能·ai·puppeteer·playwright·jina·skills·agent skills
Elastic 中国社区官方博客2 个月前
使用 Jina Embeddings v5 和 Elasticsearch 构建“与你的网站数据聊天”的 agent
大数据·人工智能·elasticsearch·搜索引擎·容器·全文检索·jina
海兰2 个月前
Jina Embeddings V5 Text + Elasticsearch 9.x 本地部署指南
elasticsearch·jenkins·jina
Jina AI2 个月前
jina-embeddings-v5-text:0.6B 参数下最好的多语言向量模型
jina