提取网页内容
- [r.jina.ai 使用指南:一键提取网页核心内容](#r.jina.ai 使用指南:一键提取网页核心内容)
-
- 简介
- 一、基础用法:三步上手
-
- [第 1 步:复制目标网页链接](#第 1 步:复制目标网页链接)
- [第 2 步:在 URL 前添加 r.jina.ai/](#第 2 步:在 URL 前添加 r.jina.ai/)
- [第 3 步:访问新链接](#第 3 步:访问新链接)
- 二、输出格式说明
- 三、进阶技巧
-
- [技巧 1:通过 API 调用](#技巧 1:通过 API 调用)
- [技巧 2:配合 AI 工具使用](#技巧 2:配合 AI 工具使用)
- [技巧 3:批量处理多个链接](#技巧 3:批量处理多个链接)
- 四、实际应用场景
-
- [场景 1:快速阅读长文](#场景 1:快速阅读长文)
- [场景 2:为 AI 提供上下文](#场景 2:为 AI 提供上下文)
- [场景 3:内容存档与笔记](#场景 3:内容存档与笔记)
- 四、使用限制与注意事项
- 五、相关工具推荐
- 结语
r.jina.ai 使用指南:一键提取网页核心内容
无需代码、无需注册,让任意网页变成 AI 友好的干净文本
简介
r.jina.ai 是由 Jina AI 提供的免费网页内容提取服务。它能在几秒钟内将复杂的网页转换为结构清晰、易于阅读的 Markdown 格式,自动去除广告、导航栏、弹窗等干扰元素。
r.jina.ai 都能帮你快速获取网页的核心信息。
一、基础用法:三步上手
第 1 步:复制目标网页链接
找到你想提取内容的网页,复制完整的 URL。
例如:https://github.com/MoonshotAI/Kimi-K2.5/blob/master/README.md
第 2 步:在 URL 前添加 r.jina.ai/
https://r.jina.ai/https://github.com/MoonshotAI/Kimi-K2.5/blob/master/README.md
第 3 步:访问新链接
在浏览器中打开组合后的链接,即可看到提取后的干净内容。
二、输出格式说明
r.jina.ai 默认返回 Markdown 格式 的内容,包含以下结构:
markdown
# 文章标题
> 元数据(作者、发布时间等)
## 正文标题
正文段落内容...
### 子标题
- 列表项 1
- 列表项 2
> 引用块内容

特点
| 特性 | 说明 |
|---|---|
| ✅ 保留格式 | 标题层级、列表、代码块、引用等 |
| ✅ 提取图片 | 保留文章中的关键图片 |
| ✅ 去除噪音 | 自动过滤广告、导航、评论区等 |
| ✅ 处理动态内容 | 支持 JavaScript 渲染的网页 |
三、进阶技巧
技巧 1:通过 API 调用
除了直接在浏览器使用,你还可以通过程序调用:
cURL 示例:
bash
curl https://r.jina.ai/http://example.com
Python 示例:
python
import requests
url = "https://r.jina.ai/http://example.com"
response = requests.get(url)
content = response.text
print(content)
技巧 2:配合 AI 工具使用
提取的 Markdown 内容可以直接发送给 Claude、GPT 等 AI 助手:
请帮我总结以下网页的核心观点:
---
[paste r.jina.ai 提取的内容]
---
技巧 3:批量处理多个链接
如果你需要处理多个网页,可以编写简单的脚本:
python
import requests
import time
urls = [
"https://example.com/article-1",
"https://example.com/article-2",
"https://example.com/article-3"
]
for url in urls:
jina_url = f"https://r.jina.ai/{url}"
response = requests.get(jina_url)
# 保存到文件
filename = url.split('/')[-1] + ".md"
with open(filename, 'w', encoding='utf-8') as f:
f.write(response.text)
print(f"已保存: {filename}")
time.sleep(1) # 礼貌性地间隔 1 秒
四、实际应用场景
场景 1:快速阅读长文
遇到一篇感兴趣的深度文章,但时间有限?
- 用 r.jina.ai 提取内容
- 发送给 AI:"请用 3 句话总结这篇文章的核心观点"
场景 2:为 AI 提供上下文
当需要让 AI 分析某个网页时:
基于以下网页内容,分析作者的观点和论据:
[粘贴 r.jina.ai 提取的内容]
场景 3:内容存档与笔记
将重要文章转换为 Markdown,存入 Obsidian、Notion 等笔记软件:
- 用 r.jina.ai 提取内容
- 复制 Markdown
- 粘贴到笔记软件,添加个人批注
四、使用限制与注意事项
免费版限制
| 项目 | 说明 |
|---|---|
| 速率限制 | 建议不要高频并发请求 |
| 内容长度 | 超长网页可能会被截断 |
| 登录内容 | 无法提取需要登录才能查看的内容 |
最佳实践
- 尊重版权 --- 提取的内容仅供个人学习使用
- 检查完整性 --- 复杂网页建议人工核对提取结果
- 礼貌使用 --- 批量处理时添加适当延迟
五、相关工具推荐
| 工具 | 用途 | 链接 |
|---|---|---|
| r.jina.ai | 网页内容提取 | https://r.jina.ai |
| s.jina.ai | 搜索 + 内容提取 | https://s.jina.ai |
| g.jina.ai | 搜索结果事实核查 | https://g.jina.ai |
结语
r.jina.ai 是一个简单却强大的工具,它解决了"如何让 AI 读懂网页"这个痛点。无论你是做研究、写博客,还是日常阅读,它都能帮你节省大量时间。
现在就试试: 打开浏览器,在任意文章链接前加上 https://r.jina.ai/,体验一键提取的便捷!
💡 小提示:把这个链接格式加入浏览器书签,随时快速提取网页内容。