自己搭建的AI如何用,你知道吗?

一、开源AI大语言模型

目前开源的AI大语言模型(LLM)已经非常的多了,以下是收集的一些LLM:

LLaMA2023-06-26日上传至github,目前51.3k star

以下主要介绍如何使用ollama安装的AI模型及对大语言模型的微调:

二、使用方式

1、命令行

2、REST API

vbnet 复制代码
curl http://localhost:11434/api/generate -d '{
  "model": "gemma:2b",
  "prompt":"who are you?"
}'

postman调用

3、图形界面

Open WebUI (原Ollama WebUI):这是一个用于聊天交互的用户友好的 Web 界面。它从 ChatGPT 中汲取友好的聊天界面,支持 Docker 或 Kubernetes 安装,还可以在不同聊天模型之间无缝切换,实现多样化交互.

LibreChat:LibreChat 是一个开源的 AI 通讯平台,它在 ChatGPT 的基础上添加了功能和增强性能。LibreChat 允许用户在选择不同的大型语言模型时切换,支持多种功能,包括编辑模型内部设置、搜索和过滤功能,以及插件系统。

HTML UI:HTML UI 是一个适合开发者练手的 Web UI 项目,包含了多个响应式、现代化的界面模板,适用于练习 HTML、CSS 和 JavaScript。

Chatbot UI:Chatbot UI 是一个高级聊天机器人工具包,基于 OpenAI 的聊天模型,支持多种功能,如响应式设计、代码语法高亮、Markdown、RAG 集成等。

以下是ollama列举的相关项目:

这里选择Open WebUI,直接通过docker安装

perl 复制代码
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=http://localhost:11434 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

如果webui与llama不在同一台机器上,这里的OLLAMA_BASE_URL要使用远程地址。但ollama默认是通过localhost访问的,所以在windows需要通过环境变量更改绑定地址。

复制代码
OLLAMA_HOST       0.0.0.0:11434

重启ollama就可以远程访问

复制代码
ollama serve

随便注册一个账号

登录后就可以使用

界面与chatgpt差不多

三、模型微调

对于开源大语言模型基本通过安装、下载大语言模型、安装Web UI等步骤基本就可以使用了,如果想集成到自己的业务中去可以使用API的方式调用。当然想更进一步让大语言模型更贴切自己的业务的话,就需要对大语言模型进行微调,把自己的业务数据给大语言模型进行训练。

LLM的微调是在预训练模型的基础上进一步将预训练模型在较小、特定数据集上进一步训练的过程,以使其更好地适应特定的任务或数据集。预训练模型通常是在大规模的通用数据集上训练得到的,它们能够捕捉到语言的一般性特征和模式。然而,这些模型可能并不完全适应特定的应用和业务场景,因此需要通过微调来优化模型的表现。

以下是微调大型预训练语言模型的技术:

  • 微软LORA

LoRA(Low-Rank Adaptation)是一种用于微调大型语言模型(LLM)的技术,它旨在通过参数高效的方式提高模型的适应性和性能。这种技术最初由微软的研究人员提出,并在论文《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》中进行了详细介绍。LoRA的核心思想是在不改变预训练模型权重的前提下,通过在模型的每一层注入可训练的低秩矩阵来实现微调,从而显著减少所需的训练参数数量和计算资源。

  • 谷歌Prompt Tuning

Prompt Tuning 是一种新兴的大模型微调技术,它通过在预训练模型的基础上添加可学习的提示(Prompt)来调整模型的输出,从而适应特定的任务。这种方法的核心思想是利用预训练模型的强大语义理解能力,并通过少量的参数更新来实现对模型的微调。

  • 华盛顿大学QLoRA

QLoRA是一种新的微调大型语言模型(LLM)的方法,能够在节省内存的同时保持速度。其工作原理是首先将LLM进行4位量化,从而显著减少模型的内存占用,然后使用低阶适配器(LoRA)方法对量化的LLM进行微调。

  • 清华大学P-tuning v2

P-Tuning v2 是一种高效的微调方法,用于在保持性能的同时减少内存使用。它的核心思想是将预训练的大型语言模型(LLM)量化为4位,并添加一小组可学习的低秩适配器权重。通过冻结的、4位量化的预训练语言模型反向传播梯度到低秩适配器(LoRA)来实现微调。这种方法使得在单个48GB的GPU上微调拥有650亿参数的模型成为可能,同时保持16位微调任务的性能。P-Tuning v2 引入了多项创新来在不牺牲性能的情况下节省内存,例如4位NormalFloat(NF4)数据类型、双重量化和分页优化器。该方法使得微调大型语言模型变得更加可行,降低了资源门槛。

另外也有类似阿里PAI这种一站式的SAAS平台,还仅可以微调还提供部署等功能 。

  • 阿里云 PAI

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

  • 腾讯云TI-ONE

TI-ONE 训练平台(以下简称TI-ONE)是为 AI 工程师打造的一站式机器学习平台,为用户提供从数据接入、模型训练、模型管理到模型服务的全流程开发支持。TI-ONE 支持多种训练方式和算法框架,满足不同 AI 应用场景的需求。

相关推荐
蹦蹦跳跳真可爱5898 分钟前
Python----循环神经网络(Transformer ----注意力机制)
人工智能·深度学习·nlp·transformer·循环神经网络
空中湖2 小时前
tensorflow武林志第二卷第九章:玄功九转
人工智能·python·tensorflow
lishaoan772 小时前
使用tensorflow的线性回归的例子(七)
人工智能·tensorflow·线性回归
千宇宙航5 小时前
闲庭信步使用SV搭建图像测试平台:第三十一课——基于神经网络的手写数字识别
图像处理·人工智能·深度学习·神经网络·计算机视觉·fpga开发
onceco6 小时前
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)
人工智能·python·深度学习·语言模型·自然语言处理·自动化
jndingxin8 小时前
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值
人工智能·opencv·计算机视觉
Sweet锦9 小时前
零基础保姆级本地化部署文心大模型4.5开源系列
人工智能·语言模型·文心一言
hie9889410 小时前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab
晨同学032710 小时前
opencv的颜色通道问题 & rgb & bgr
人工智能·opencv·计算机视觉
蓝婷儿10 小时前
Python 机器学习核心入门与实战进阶 Day 3 - 决策树 & 随机森林模型实战
人工智能·python·机器学习