神奇工具！把网页转换为markdown

你知道吗？有一种工具叫做Reader，它能够帮你把任何网址转换成更适合大型语言模型（LLM）处理的输入格式。就像给网页穿上了一件"智能外衣"，让它们更容易被理解和使用。而且，这个服务完全免费哦！

今天就给大家详细介绍下如何使用这款工具。

如何使用

使用Reader非常简单，你只需要在任何网址前加上一个简单的前缀 https://r.jina.ai/ 就可以了。比如，如果你想把 https://en.wikipedia.org/wiki/Artificial_intelligence 转换成一个更适合语言模型处理的输入，你只需要访问：

而且，Reader还有一个实时演示，你可以亲自去体验一下：

Reader最近还增加了一个新功能，那就是支持图像阅读。它能够为指定URL中的所有图像添加标题，并在图片缺少alt标签的情况下，添加 Image [idx]: [caption] 作为替代。这样，下游的语言模型就能在推理、总结等过程中与图片进行交互了。你可以在这里看到一个示例：点击查看示例。

如果你想自己运行这个项目，你需要准备以下工具：

对于后端，你需要进入 backend/functions 目录并安装npm依赖：

sh 复制代码

git clone git@github.com:jina-ai/reader.git
cd backend/functions
npm install

Reader提供了几种不同的模式，以适应不同的使用场景：

标准模式 ：直接在URL前加上 https://r.jina.ai/ 即可。这种方式简单直接，适用于大多数情况。
流式模式：如果你发现标准模式下的结果不够完整，可以尝试流式模式。它会等待页面完全渲染后再提供内容。你可以通过设置请求头来启用流式模式：
sh 复制代码
```
curl -H "Accept: text/event-stream" <https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page>
```
这种方式下，数据会以流的形式分块传输，每个后续块都包含更完整的信息。最后一个块通常提供最完整和最终的结果。这对于需要即时内容交付或希望以块处理数据以交错输入/输出和模型处理时间的下游系统非常有用。
JSON模式 ：虽然目前这个模式还处于早期阶段，输出的JSON并不是特别"有用"，但它提供了 url、title 和 content 三个字段。你可以通过设置请求头来控制输出格式：
sh 复制代码
```
curl -H "Accept: application/json" <https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page>
```

这个工具对于希望提高语言模型输入质量的开发者来说非常有用，尤其是需要处理网页内容的场景。通过Reader，可以更轻松地将网页内容转换为适合语言模型处理的格式，从而提升模型的性能和输出结果的质量。