liunx安装canda、python、nodejs、git,随后部署私有网页内容提取工具--JinaReader全攻略

Jina Reader 是由 Jina AI 开发的一款开源工具,可将互联网网页的 HTML 内容转换为适合大型语言模型(LLMs)处理的纯文本格式。用户只需在网站地址前添加特定的前缀,即可快速提取网页的主要内容,并以结构化的文本格式输出,去除不必要的 HTML 标签和脚本。

本文面向小白开放,选取系统linux,足够任何人跟着走部署好jina reader,操作系统以ubuntu为例(一通百通),一篇文章带你安装canda、python、nodejs、git,随后部署jinareader,寓教于学,顺便拥有自己的网页提取工具~~~


一.安装conda

这里我们选用Miniconda,作为一个轻量级conad版本,安装非常简易

1.ctrl+alt+t 打开终端,输入

bash 复制代码
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

2.安装

bash 复制代码
bash Miniconda3-latest-Linux-x86_64.sh

之后看到yes输入yes,没有让输入的就按回车键enter,全默认即可,不要看其他的安装conda的教程,以为有这个错误原因那个错误的弄!

(如果发生错误,自查三点:

1.安装的系统不管你是centos还是ubuntu,你确定是否真的安装好了系统而不是只是装了光盘?

2.如果是公司内部程序你准备私有化部署这个工具,你确定公司内网是否允许这种非软件安装申请?或者是否有防火墙?如果是个人部署,是否网络通畅?

3.依赖因为以前的某些操作丢失了吗?)

3.环境变量

只要你之前一路yes与enter下来,这个时候就安装好了,输入

bash 复制代码
source ~/.bashrc

你的终端就识别到已经按照好的canda了

然后输入

bash 复制代码
conda --version

此时conda安装完毕,我们开启第二步

二、安装python

为了避免与系统自带的Python版本或其他项目发生冲突,建议创建一个独立的虚拟环境。

1.创建新环境

执行命令来创建一个名为 jina-env(也可以自定义其他名称)的新环境,这里我指定了python版本为3.10,大家一步到位装3.13,这里我为了引入"选择环境"更新python版本的情节,我先装了3.10便于教学,大家忽略就好

bash 复制代码
conda create --name jina-env python=3.13

也就是遇到"a"输入"a",遇到"y"输入"y"

2.激活环境

环境创建成功后,使用以下命令激活它

bash 复制代码
conda activate jina-env

3.验证安装

bash 复制代码
# 验证安装
python3 --version
pip3 --version

三、安装nodejs

1.首先安装工具curl

bash 复制代码
sudo apt install curl -y

这里如果安装有问题就先更新apt,没有就不需要

bash 复制代码
sudo apt update

如果还是有问题那就试试以下代码选一个(没问题不需要使用)

bash 复制代码
# 对于Debian 9.0以上系统,可能需要先安装sudo
sudo apt install sudo -y

# 或者尝试修复包管理器
sudo dpkg --configure -a
sudo apt update
sudo apt install curl -y

2.安装nodejs

输入

bash 复制代码
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install nodejs -y

后面不需要输入什么确认的内容,会直接安装好

3.验证版本

输入

bash 复制代码
node -v
npm -v

按照步骤来,不会出错,在确保网络正常、无防火墙干预的情况下,如果中间有任何问题,请附带系统+版本+问题私信我

四、安装git

1.安装git

bash 复制代码
sudo apt install git

注意填写自己的系统密码(linux是默认隐藏输入的密码,因此只是看上去没有输入)

2.验证

输入

bash 复制代码
git --version

五、部署

1.拉取代码

直接输入

bash 复制代码
git clone https://github.com/jina-ai/reader.git

或者

bash 复制代码
git clone https://gitclone.com/github.com/jina-ai/reader.git

2.移动到reader文件夹

输入

bash 复制代码
cd reader

3.检查先前的配置

这里要注意有没有关过终端或者中间换过环境

输入

bash 复制代码
python --version

看看是不是我们之前创建过的环境

如果得到不对的版本

那么回顾我们之前的操作,重新输入

bash 复制代码
conda activate jina-env

就可以回到我们之前的环境了(我装的版本是3.10.19,不必在意)

4.构筑

正常我们进入到reader文件夹后,输入

bash 复制代码
npm install

就会开始构建

接着输入

bash 复制代码
npm run build
bash 复制代码
npm run start

此时服务启动,我们可以进入网址(在config.json自查),例如我的port是3000(自配)

以下是我的实际使用:

随意输入一个需要抽取的网站

1.例如https://www.gov.cn/zhengce/202512/content_7051904.htm,官方页面

2.https://www.news.cn/tech/20251218/63ee37a54b4f4830aafea024d6565b5c/c.html,新华网


以下内容是部署失败的同学需要看的!

可能会遇到项目需要安装python3-dev(node-gyp需要Python开发头文件)

如果遇到,输入(没遇到就省略)

bash 复制代码
# 安装编译工具链
sudo apt update
sudo apt install -y build-essential make g++

# 安装 Python 开发头文件(node-gyp 需要)
sudo apt install -y python3-dev

注:(此处装的是python3.13版本的同学,学习一下就好,如果不是可以操作)

然后Python 版本取决于你使用的 node-gyp 版本, node-gyp 自 v10.0.0 起已正式放弃对 Python 2.x 的支持 ,全面转向 Python 3.12+ 。因此,对于新项目,强烈建议安装 Python 3.12 或更高版本。

我们首先确保在正确的环境

bash 复制代码
conda activate jina-env

输入

bash 复制代码
conda install python=3.13 -n jina-env

就可以更新python版本了,Conda 会解析依赖,列出所有将要安装、升级、降级或删除的包,并提示你确认 (Proceed ([y]/n)?),一路选y就可以了

也可以自行创建新的环境,返回上方创建新环境处自行创建即可。

这就提供了一种环境隔离的方法,可以隔离不同的依赖


如果大家学会了liunx安装canda、python、nodejs、git的方法,欢迎大家的点赞、收藏

相关推荐
代码游侠2 小时前
学习笔记——Linux进程间通信(IPC)
linux·运维·笔记·学习·算法
高洁012 小时前
DNN案例一步步构建深层神经网络(3)
python·深度学习·算法·机器学习·transformer
郝学胜-神的一滴2 小时前
Linux C++ 守护进程开发指南
linux·运维·服务器·开发语言·c++·程序人生·性能优化
AI_56782 小时前
Jupyter交互式数据分析的效率革命
开发语言·python
李斯维2 小时前
第18章 过滤器:统计和格式化
linux·bash·unix
superman超哥2 小时前
仓颉语言中并发集合的实现深度剖析与高性能实践
开发语言·后端·python·c#·仓颉
superman超哥2 小时前
仓颉语言中原子操作的封装深度剖析与无锁编程实践
c语言·开发语言·后端·python·仓颉
拾贰_C2 小时前
【Anaconda | Python | pytorch】sklearn scikit-learn 报错:
pytorch·python·sklearn
叶子丶苏2 小时前
第十八节_PySide6基本窗口控件深度补充_剪贴板与拖曳功能(QMimeData 类) 上篇
python·pyqt