标签分类调研

  1. 任务

本周任务:

(1)合并两个版本代码,发布一个新网址供比较

(2)调研分类标签的方法

  1. 修改代码

代码已修改好,将文件压缩后通过WinSCP转移到服务器上,需要重新配环境。

步骤:

在Linux系统中,虚拟环境的激活脚本位于bin目录下,而不是Scripts目录(windows)。

所以先删除原本环境:

复制代码
rm -rf .venv

下载一个没有pip的虚拟环境,不然会下载失败,而且没有sudo权限,无法安装python3-10-venv

复制代码
# 创建不带pip的虚拟环境
python3 -m venv --without-pip venv

# 激活虚拟环境(即使没有pip,基本环境还是可用的)
source venv/bin/activate

# 下载get-pip.py
# curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# curl不可用,使用wget
wget https://bootstrap.pypa.io/get-pip.py

# 在虚拟环境中安装 pip
python get-pip.py

然后安装需要的包

由于和python3.10版本兼容问题,需要把requirements.txt的

torch=1.11.0

scikit-learn==1.0.2

复制代码
# 进入项目目录
cd "Mind-Dharma Q&A System"

# 安装requirements.txt中的所有包
pip install -r requirements.txt

会出现 tokenizers 包因为需要 Rust 编译器而失败。

而且之前下载的没有被记录下来,所有现在一个一个安装,不要使用requirements.txt来安装

复制代码
# 安装 jieba
pip install jieba==0.42.1

# 安装 numpy
pip install numpy==1.21.2

# 安装 pandas
pip install pandas==1.3.3

# 安装 scikit-learn
pip install scikit-learn==1.0.2

# 安装 torch
pip install torch==1.11.0

# 安装 gunicorn(如果已经安装会跳过)
pip install gunicorn==20.1.0

运行程序

复制代码
python xinfa_QA.py
  1. 标签分类

做法:如果采用BGE模型,生成向量后,进行相似度计算,一级标签可以通过相似度最高的语句,生成和它一样的标签,二级标签可以通过返回top-k个答案的标签放回。

但是这样的缺点就是:

  • 如果数据集中没有与新问题相似的问题,那么预测可能不准确。

  • 如果数据集中存在错误标签,也会影响预测结果。

关于HiTIN:

相关推荐
qeen8716 小时前
【C++】类与对象之类的默认成员函数(二)
android·c语言·开发语言·c++·笔记·学习
m0_7360348516 小时前
存储基础和虚拟化
笔记
AOwhisky17 小时前
MySQL 学习笔记(第六期):MySQL 备份与恢复
运维·数据库·笔记·学习·mysql·云计算
华山沦贱18 小时前
open62541 V1.5.4版对C++ Builder支持的bug
笔记
稷下元歌19 小时前
七天学会plc 加机器视觉完整笔记:S7-1200 数据类型、存储区与寻址方式(I/Q/M/DB 详解)。
网络·数据库·笔记
逸模19 小时前
AI+BIM 重构连锁公装新范式 逸模打造数字化营建核心底座
大数据·人工智能·笔记·其他·信息可视化·重构
xqqxqxxq20 小时前
树结构技术学习笔记
数据结构·笔记·学习
十月的皮皮21 小时前
C语言学习笔记202606008- 三角形判断(3种方法)
c语言·笔记·学习
XGeFei21 小时前
【Fastapi学习笔记(6)】—— Fastapi文件上传、请求头自动转换
笔记·学习·fastapi
嘶哈哈哈21 小时前
嘉立创 EDA 入门实操笔记:从原理图到 PCB 布线、差分对、覆铜与 DRC 检查
开发语言·笔记·php