标签分类调研

  1. 任务

本周任务:

(1)合并两个版本代码,发布一个新网址供比较

(2)调研分类标签的方法

  1. 修改代码

代码已修改好,将文件压缩后通过WinSCP转移到服务器上,需要重新配环境。

步骤:

在Linux系统中,虚拟环境的激活脚本位于bin目录下,而不是Scripts目录(windows)。

所以先删除原本环境:

复制代码
rm -rf .venv

下载一个没有pip的虚拟环境,不然会下载失败,而且没有sudo权限,无法安装python3-10-venv

复制代码
# 创建不带pip的虚拟环境
python3 -m venv --without-pip venv

# 激活虚拟环境(即使没有pip,基本环境还是可用的)
source venv/bin/activate

# 下载get-pip.py
# curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# curl不可用,使用wget
wget https://bootstrap.pypa.io/get-pip.py

# 在虚拟环境中安装 pip
python get-pip.py

然后安装需要的包

由于和python3.10版本兼容问题,需要把requirements.txt的

torch=1.11.0

scikit-learn==1.0.2

复制代码
# 进入项目目录
cd "Mind-Dharma Q&A System"

# 安装requirements.txt中的所有包
pip install -r requirements.txt

会出现 tokenizers 包因为需要 Rust 编译器而失败。

而且之前下载的没有被记录下来,所有现在一个一个安装,不要使用requirements.txt来安装

复制代码
# 安装 jieba
pip install jieba==0.42.1

# 安装 numpy
pip install numpy==1.21.2

# 安装 pandas
pip install pandas==1.3.3

# 安装 scikit-learn
pip install scikit-learn==1.0.2

# 安装 torch
pip install torch==1.11.0

# 安装 gunicorn(如果已经安装会跳过)
pip install gunicorn==20.1.0

运行程序

复制代码
python xinfa_QA.py
  1. 标签分类

做法:如果采用BGE模型,生成向量后,进行相似度计算,一级标签可以通过相似度最高的语句,生成和它一样的标签,二级标签可以通过返回top-k个答案的标签放回。

但是这样的缺点就是:

  • 如果数据集中没有与新问题相似的问题,那么预测可能不准确。

  • 如果数据集中存在错误标签,也会影响预测结果。

关于HiTIN:

相关推荐
航Hang*21 小时前
Photoshop 图形与图像处理技术——第8章:图像的色彩与色彩调整和图像的输出与优化
图像处理·笔记·ui·photoshop
小桥流水---人工智能21 小时前
风电机组故障诊断与状态监测方法的研究局限性整理(背景笔记)
笔记
菩提小狗1 天前
小迪安全笔记_第4天|扩展&整理|30+种加密编码进制全解析:特点、用处与实战识别指南|小迪安全笔记|网络安全|
笔记·安全·web安全
xian_wwq1 天前
【学习笔记】OSI安全架构体系
网络·笔记·学习
love530love1 天前
Windows 11 下再次成功本地编译 Flash-Attention 2.8.3 并生成自定义 Wheel(RTX 3090 sm_86 专属版)
人工智能·windows·笔记·编译·flash_attn·flash-attn·flash-attention
中屹指纹浏览器1 天前
2025 硬核技术:中屹指纹浏览器进程级沙箱隔离,筑牢多开防关联壁垒
经验分享·笔记
再睡一夏就好1 天前
多线程并发编程核心:互斥与同步的深度解析及生产者消费者模型两种实现
linux·运维·服务器·jvm·c++·笔记
m0_726965981 天前
RAG源代码笔记JAVA-高级RAG
笔记·ai·agent·rag
复业思维202401081 天前
Altium Designer (24.2.2)中更改库以及保持器件参数不变
笔记·学习·硬件工程
巧克力味的桃子1 天前
进制转换3 学习笔记
笔记·学习