liunx安装canda、python、nodejs、git，随后部署私有网页内容提取工具--JinaReader全攻略

Jina Reader 是由 Jina AI 开发的一款开源工具，可将互联网网页的 HTML 内容转换为适合大型语言模型（LLMs）处理的纯文本格式。用户只需在网站地址前添加特定的前缀，即可快速提取网页的主要内容，并以结构化的文本格式输出，去除不必要的 HTML 标签和脚本。

本文面向小白开放,选取系统linux,足够任何人跟着走部署好jina reader，操作系统以ubuntu为例（一通百通），一篇文章带你安装canda、python、nodejs、git，随后部署jinareader，寓教于学，顺便拥有自己的网页提取工具~~~

一.安装conda

这里我们选用Miniconda,作为一个轻量级conad版本，安装非常简易

1.ctrl+alt+t 打开终端，输入

bash 复制代码

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

2.安装

bash 复制代码

bash Miniconda3-latest-Linux-x86_64.sh

之后看到yes输入yes，没有让输入的就按回车键enter，全默认即可，不要看其他的安装conda的教程,以为有这个错误原因那个错误的弄！

（如果发生错误，自查三点：

1.安装的系统不管你是centos还是ubuntu，你确定是否真的安装好了系统而不是只是装了光盘？

2.如果是公司内部程序你准备私有化部署这个工具，你确定公司内网是否允许这种非软件安装申请？或者是否有防火墙？如果是个人部署，是否网络通畅？

3.依赖因为以前的某些操作丢失了吗？）

3.环境变量

只要你之前一路yes与enter下来，这个时候就安装好了，输入

bash 复制代码

source ~/.bashrc

你的终端就识别到已经按照好的canda了

然后输入

bash 复制代码

conda --version

此时conda安装完毕，我们开启第二步

二、安装python

为了避免与系统自带的Python版本或其他项目发生冲突，建议创建一个独立的虚拟环境。

1.创建新环境

执行命令来创建一个名为 jina-env（也可以自定义其他名称）的新环境，这里我指定了python版本为3.10，大家一步到位装3.13，这里我为了引入"选择环境"更新python版本的情节，我先装了3.10便于教学，大家忽略就好

bash 复制代码

conda create --name jina-env python=3.13

也就是遇到"a"输入"a",遇到"y"输入"y"

2.激活环境

环境创建成功后，使用以下命令激活它

bash 复制代码

conda activate jina-env

3.验证安装

bash 复制代码

# 验证安装
python3 --version
pip3 --version

三、安装nodejs

1.首先安装工具curl

bash 复制代码

sudo apt install curl -y

这里如果安装有问题就先更新apt，没有就不需要

bash 复制代码

sudo apt update

如果还是有问题那就试试以下代码选一个（没问题不需要使用）

bash 复制代码

# 对于Debian 9.0以上系统，可能需要先安装sudo
sudo apt install sudo -y

# 或者尝试修复包管理器
sudo dpkg --configure -a
sudo apt update
sudo apt install curl -y

2.安装nodejs

输入

bash 复制代码

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install nodejs -y

后面不需要输入什么确认的内容，会直接安装好

3.验证版本

输入

bash 复制代码

node -v
npm -v

按照步骤来，不会出错，在确保网络正常、无防火墙干预的情况下，如果中间有任何问题，请附带系统+版本+问题私信我

四、安装git

1.安装git

bash 复制代码

sudo apt install git

注意填写自己的系统密码（linux是默认隐藏输入的密码，因此只是看上去没有输入）

2.验证

输入

bash 复制代码

git --version

五、部署

1.拉取代码

直接输入

bash 复制代码

git clone https://github.com/jina-ai/reader.git

或者

bash 复制代码

git clone https://gitclone.com/github.com/jina-ai/reader.git

2.移动到reader文件夹

输入

bash 复制代码

cd reader

3.检查先前的配置

这里要注意有没有关过终端或者中间换过环境

输入

bash 复制代码

python --version

看看是不是我们之前创建过的环境

如果得到不对的版本

那么回顾我们之前的操作，重新输入

bash 复制代码

conda activate jina-env

就可以回到我们之前的环境了（我装的版本是3.10.19，不必在意）

4.构筑

正常我们进入到reader文件夹后，输入

bash 复制代码

npm install

就会开始构建

接着输入

bash 复制代码

npm run build

bash 复制代码

npm run start

此时服务启动，我们可以进入网址（在config.json自查），例如我的port是3000（自配）

以下是我的实际使用：

随意输入一个需要抽取的网站

1.例如https://www.gov.cn/zhengce/202512/content_7051904.htm，官方页面

2.https://www.news.cn/tech/20251218/63ee37a54b4f4830aafea024d6565b5c/c.html，新华网

以下内容是部署失败的同学需要看的！

可能会遇到项目需要安装python3-dev（node-gyp需要Python开发头文件）

如果遇到，输入（没遇到就省略）

bash 复制代码

# 安装编译工具链
sudo apt update
sudo apt install -y build-essential make g++

# 安装 Python 开发头文件（node-gyp 需要）
sudo apt install -y python3-dev

注：（此处装的是python3.13版本的同学，学习一下就好，如果不是可以操作）

然后Python 版本取决于你使用的 node-gyp 版本， node-gyp 自 v10.0.0 起已正式放弃对 Python 2.x 的支持 ，全面转向 Python 3.12+ 。因此，对于新项目，强烈建议安装 Python 3.12 或更高版本。

我们首先确保在正确的环境

bash 复制代码

conda activate jina-env

输入

bash 复制代码

conda install python=3.13 -n jina-env

就可以更新python版本了，Conda 会解析依赖，列出所有将要安装、升级、降级或删除的包，并提示你确认 (Proceed ([y]/n)?)，一路选y就可以了

也可以自行创建新的环境，返回上方创建新环境处自行创建即可。

这就提供了一种环境隔离的方法，可以隔离不同的依赖

如果大家学会了liunx安装canda、python、nodejs、git的方法，欢迎大家的点赞、收藏