标签分类调研

任务

本周任务：

（1）合并两个版本代码，发布一个新网址供比较

（2）调研分类标签的方法

修改代码

代码已修改好，将文件压缩后通过WinSCP转移到服务器上，需要重新配环境。

步骤：

在Linux系统中，虚拟环境的激活脚本位于bin目录下，而不是Scripts目录（windows）。

所以先删除原本环境：

复制代码

rm -rf .venv

下载一个没有pip的虚拟环境，不然会下载失败，而且没有sudo权限，无法安装python3-10-venv

复制代码

# 创建不带pip的虚拟环境
python3 -m venv --without-pip venv

# 激活虚拟环境（即使没有pip，基本环境还是可用的）
source venv/bin/activate

# 下载get-pip.py
# curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# curl不可用，使用wget
wget https://bootstrap.pypa.io/get-pip.py

# 在虚拟环境中安装 pip
python get-pip.py

然后安装需要的包

由于和python3.10版本兼容问题，需要把requirements.txt的

torch=1.11.0

scikit-learn==1.0.2

复制代码

# 进入项目目录
cd "Mind-Dharma Q&A System"

# 安装requirements.txt中的所有包
pip install -r requirements.txt

会出现 tokenizers 包因为需要 Rust 编译器而失败。

而且之前下载的没有被记录下来，所有现在一个一个安装，不要使用requirements.txt来安装

复制代码

# 安装 jieba
pip install jieba==0.42.1

# 安装 numpy
pip install numpy==1.21.2

# 安装 pandas
pip install pandas==1.3.3

# 安装 scikit-learn
pip install scikit-learn==1.0.2

# 安装 torch
pip install torch==1.11.0

# 安装 gunicorn（如果已经安装会跳过）
pip install gunicorn==20.1.0

运行程序

复制代码

python xinfa_QA.py

标签分类

做法：如果采用BGE模型，生成向量后，进行相似度计算，一级标签可以通过相似度最高的语句，生成和它一样的标签，二级标签可以通过返回top-k个答案的标签放回。

但是这样的缺点就是：

如果数据集中没有与新问题相似的问题，那么预测可能不准确。
如果数据集中存在错误标签，也会影响预测结果。

关于HiTIN：