【NLP实践】三、LLM搭建中文知识库:提供RestfulAPI服务

目录

前言

使用场景:因为在公司中,甲方都是同公司的其他部门,或者是大领导单线提出,在需求管理、型号配置、功能配置等等数据都非常多、杂,难以维护。我们无法要求甲方/领导提供完整的零散需求的需求文档,只能由项目经理或者开发来共同维护。这些数据只能以内网知识库的形式提供给适配人员或者相关人员去查询。

使用模型:

1、编码器:moka-ai/m3e-large

2、向量数据库:FAISS

3、LLM:Qwen/Qwen2-1.5B(本机使用,如果GPU服务器,那么你可以选个性能高的,改个名就行)

如果有问题提issue

准备工作

请确保你已经安装并配置好了conda

下载项目

shell 复制代码
git clone https://github.com/zpskt/MultiModelNLP.git
cd MultiModelNLP

创建conda环境

bash 复制代码
conda create -n llm-faiss --override-channels -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ python=3.9

安装依赖

shell 复制代码
conda activate sentiment
pip install -r src/llm/requirements.txt
#pip install -r src/llm/requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

配置环境变量访问镜像huggingface模型
Linux/Mac

bash 复制代码
export HF_ENDPOINT=https://hf-mirror.com

你也可以添加到bash中

bash 复制代码
vim ~/.zshrc  # linux为 vim ~/.bashrc

使用

结构目录

你需要了解每个文件和文件夹都是做什么的,这样才能后续调试。

shell 复制代码
│   ├── llm
│   │   ├── api.py
│   │   ├── document_loader.py
│   │   ├── main.py
│   │   ├── qa_system.py
│   │   └── processed_files.json

README.md - 项目说明文档

document_loader.py - 文档加载和处理模块

main.py - 主程序入口

qa_system.py - 问答系统实现模块

api.py - api服务模块

processed_files.json - 已处理的文件列表

doc_file: 这里放知识库源文档

faiss_index: 向量保存路径

启动

执行主函数,生成文档向量

bash 复制代码
python main.py

执行main函数后,会将doc_file文档下的所有文件加载到faiss中,并且会在命令行中提供一个演示对话框,演示问答。

可以看到问答系统已经知道我们的意思并且答出相应的问题了。

启动RestfulAPI服务(必须faiss已经生成向量后)

shell 复制代码
cd src/llm
python api.py

启动后正常应该如下图所示


验证

bash 复制代码
python test/test_app.py

可以看到接口已经调用成功

使用方式二:调用API方式

阿里云提供了api形式调用API,

使用方式如下:

在文件QASystem 的初始化方式用,设置use_api为True,

ApiKey要去https://dashscope.console.aliyun.com/overview 获取。

获取完后,加入到环境变量,或者在代码中明写出来。

这样就可以通过访问api的形式使用大模型了,文档索引还是保存本地,依然能够保证数据的安全。

相关推荐
xixixi777772 分钟前
基于零信任架构的通信
大数据·人工智能·架构·零信任·通信·个人隐私
玄同7655 分钟前
LangChain v1.0+ Prompt 模板完全指南:构建精准可控的大模型交互
人工智能·语言模型·自然语言处理·langchain·nlp·交互·知识图谱
Ryan老房9 分钟前
开源vs商业-数据标注工具的选择困境
人工智能·yolo·目标检测·计算机视觉·ai
取个鸣字真的难14 分钟前
Obsidian + CC:用AI 打造知识管理系统
人工智能·产品运营
困死,根本不会31 分钟前
OpenCV摄像头实时处理:基于 HSV 颜色空间的摄像头实时颜色筛选工具
人工智能·opencv·计算机视觉
Shirley~~1 小时前
Vue-skills的中文文档
前端·人工智能
华大哥1 小时前
AI大模型基于LangChain 进行RAG与Agent智能体开发
人工智能·langchain
Sagittarius_A*1 小时前
角点检测:Harris 与 Shi-Tomasi原理拆解【计算机视觉】
图像处理·人工智能·python·opencv·计算机视觉
困死,根本不会1 小时前
OpenCV实时摄像头处理:曝光调节、降噪与二值化实战
人工智能·opencv·计算机视觉
LitchiCheng1 小时前
Mujoco 开源机械臂 RL 强化学习避障、绕障
人工智能·python·开源