6G内存运行Llama2-Chinese-7B-chat模型

6G内存运行Llama2-Chinese-7B-chat模型

Llama2-Chinese中文社区

第一步:

从huggingface下载 Llama2-Chinese-7b-Chat-GGML模型放到本地的某一目录。

第二步:

执行python程序

复制代码
git clone  https://github.com/Rayrtfr/llama2-webui.git

cd llama2-webui && pip install -r requirements.txt

# 注意这里的/path/ggml-model-q4_0.bin换成你本地下载的模型路径
python app_4bit_ggml.py \
--model_path /path/ggml-model-q4_0.bin

本地浏览器打开: http://127.0.0.1:8090

相关推荐
算法狗22 小时前
大模型面试题:混合精度训练的缺点是什么
人工智能·深度学习·机器学习·语言模型
哈__2 小时前
CANN加速语音识别ASR推理:声学模型与语言模型融合优化
人工智能·语言模型·语音识别
kjkdd3 小时前
6.1 核心组件(Agent)
python·ai·语言模型·langchain·ai编程
松☆6 小时前
CANN与大模型推理:在边缘端高效运行7B参数语言模型的实践指南
人工智能·算法·语言模型
陈天伟教授7 小时前
人工智能应用- 语言理解:05.大语言模型
人工智能·语言模型·自然语言处理
晚霞的不甘7 小时前
守护智能边界:CANN 的 AI 安全机制深度解析
人工智能·安全·语言模型·自然语言处理·前端框架
空白诗7 小时前
CANN ops-nn 算子解读:大语言模型推理中的 MatMul 矩阵乘实现
人工智能·语言模型·矩阵
玄同7658 小时前
SQLite + LLM:大模型应用落地的轻量级数据存储方案
jvm·数据库·人工智能·python·语言模型·sqlite·知识图谱
Kiyra9 小时前
作为后端开发你不得不知的 AI 知识——RAG
人工智能·语言模型
lili-felicity10 小时前
CANN优化LLaMA大语言模型推理:KV-Cache与FlashAttention深度实践
人工智能·语言模型·llama