神奇工具!把网页转换为markdown

你知道吗?有一种工具叫做Reader,它能够帮你把任何网址转换成更适合大型语言模型(LLM)处理的输入格式。就像给网页穿上了一件"智能外衣",让它们更容易被理解和使用。而且,这个服务完全免费哦!

今天就给大家详细介绍下如何使用这款工具。

如何使用

使用Reader非常简单,你只需要在任何网址前加上一个简单的前缀 https://r.jina.ai/ 就可以了。比如,如果你想把 https://en.wikipedia.org/wiki/Artificial_intelligence 转换成一个更适合语言模型处理的输入,你只需要访问:

r.jina.ai/https://en....

而且,Reader还有一个实时演示,你可以亲自去体验一下:

更新日志

Reader最近还增加了一个新功能,那就是支持图像阅读。它能够为指定URL中的所有图像添加标题,并在图片缺少alt标签的情况下,添加 Image [idx]: [caption] 作为替代。这样,下游的语言模型就能在推理、总结等过程中与图片进行交互了。你可以在这里看到一个示例:点击查看示例

安装指南

如果你想自己运行这个项目,你需要准备以下工具:

  • Node v18(注意:Node版本不能超过18,否则构建可能会失败)
  • Firebase CLI(通过 npm install -g firebase-tools 安装)

对于后端,你需要进入 backend/functions 目录并安装npm依赖:

sh 复制代码
git clone git@github.com:jina-ai/reader.git
cd backend/functions
npm install

模式选择

Reader提供了几种不同的模式,以适应不同的使用场景:

  1. 标准模式 :直接在URL前加上 https://r.jina.ai/ 即可。这种方式简单直接,适用于大多数情况。

  2. 流式模式:如果你发现标准模式下的结果不够完整,可以尝试流式模式。它会等待页面完全渲染后再提供内容。你可以通过设置请求头来启用流式模式:

    sh 复制代码
    curl -H "Accept: text/event-stream" <https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page>

    这种方式下,数据会以流的形式分块传输,每个后续块都包含更完整的信息。最后一个块通常提供最完整和最终的结果。这对于需要即时内容交付或希望以块处理数据以交错输入/输出和模型处理时间的下游系统非常有用。

  3. JSON模式 :虽然目前这个模式还处于早期阶段,输出的JSON并不是特别"有用",但它提供了 urltitlecontent 三个字段。你可以通过设置请求头来控制输出格式:

    sh 复制代码
    curl -H "Accept: application/json" <https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page>

总结

这个工具对于希望提高语言模型输入质量的开发者来说非常有用,尤其是需要处理网页内容的场景。通过Reader,可以更轻松地将网页内容转换为适合语言模型处理的格式,从而提升模型的性能和输出结果的质量。

相关推荐
陈广亮18 小时前
Claude Code 两个你可能没用过的环境变量:EFFORT_LEVEL 和 ADDITIONAL_DIRECTORIES_CLAUDE_MD
人工智能
GISer_Jing18 小时前
微软AI战略全景:从基础设施到智能体生态
前端·人工智能·microsoft
用户51914958484518 小时前
Automad 2.0.0-alpha.4 存储型跨站脚本(XSS)漏洞利用
人工智能·aigc
QYR-分析18 小时前
重型自动驾驶地面车辆行业洞察:分类、格局与市场机遇
人工智能·机器学习·自动驾驶
惊鸿一博18 小时前
自动驾驶与大模型相关VLA4AD
人工智能·机器学习·自动驾驶
xixixi7777718 小时前
Gartner 2026核心趋势:前置式主动安全(PCS)成为安全战略新范式,量子安全+国密算法构筑政企纵深防御底座
网络·人工智能·安全·web安全·ai·量子计算
Rubin智造社18 小时前
04月20日AI每日参考:华为AI眼镜今日发布,Meta裁员8000人押注AI文件格式
人工智能·claude code·ai硬件·华为ai眼镜·meta裁员·cerebras ipo·字节跳动seedance
带娃的IT创业者18 小时前
深度解析 Qwen3.6-35B-A3B:重塑 AI 编程代理的开源新标杆
人工智能·python·ai·开源·大模型·qwen·编程代理
亦暖筑序18 小时前
让 AI 客服真能用的 3 个模块:情绪感知 + 意图识别 + Agent 工具链
java·人工智能·后端
实在智能RPA18 小时前
内容运营自动化AI工具选型指南:2026企业级智能内容工程实践全解析
人工智能·ai·自动化·媒体