技术栈
llama.cpp
shizidushu
16 天前
docker
·
语言模型
·
llama
·
llama.cpp
·
mistral-7b
Docker下使用llama.cpp部署带Function calling和Json Mode功能的Mistral 7B模型
说明:使用HuggingFace的镜像 https://hf-mirror.com/方式一:方式二(推荐):
穷人小水滴
19 天前
人工智能
·
llama
·
llama.cpp
·
a770
·
vulkan
·
gnu/linux
·
sycl
(章节 3.1) 本地运行 AI 有多慢 ? 大模型推理测速 (llama.cpp, Intel GPU A770)
由于本文太长, 分开发布, 方便阅读.在 4 号 PC (物理机) 上运行. 版本:运行模型 llama2-7B.q4, 生成长度 100:
穷人小水滴
25 天前
ai
·
gpu
·
intel
·
llama.cpp
·
a770
·
vulkan
·
sycl
编译运行 llama.cpp (vulkan, Intel GPU SYCL)
llama.cpp 是一个运行 AI (神经网络) 语言大模型的推理程序, 支持多种 后端 (backend), 也就是不同的具体的运行方式, 比如 CPU 运行, GPU 运行等.
SpikeKing
1 个月前
llama
·
huggingface
·
ollama
·
llama.cpp
·
大模型部署
·
gguf
·
instruct
LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式 与 Llama 3.1)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141028040
伊织code
2 个月前
大模型
·
llama
·
量化
·
llama.cpp
llama.cpp
llama.cpp的主要目标是 使LLM推理 具有最少的设置和最先进的性能,在各种硬件–本地和云端。自启动以来,由于许多 contributions,该项目有了显著改善。 它是为ggml库 开发新功能的主要场所。
湫然Quin
4 个月前
大模型
·
llama
·
模型量化
·
llama.cpp
·
模型转换
llama.cpp 转化 huggingface 模型失败 解决路径
./main -m ./models/book_q4_K_M -n 128报错:terminate called after throwing an instance of 'std::out_of_range' what(): unordered_map::at
假装我不帅
5 个月前
llama
·
qwen
·
llama.cpp
llama.cpp运行qwen0.5B
参考05b模型下载执行转换命令将模型量化为5Bit(使用q5_k-m方法)运行尝鲜通义千问1.8B 参考 hf2gguf
szZack
5 个月前
人工智能
·
大模型
·
llama.cpp
【大模型】大模型 CPU 推理之 llama.cpp
描述The main goal of llama.cpp is to enable LLM inference with minimal setup and state-of-the-art performance on a wide variety of hardware - locally and in the cloud.
engchina
9 个月前
oobabooga
·
gptq
·
awq
·
llama.cpp
·
exl2
本地部署 text-generation-webui
一直喜欢用 FastChat 本地部署大语言模型,今天试一试 text-generation-webui 这个项目。