llama.cpp

shizidushu16 天前
docker·语言模型·llama·llama.cpp·mistral-7b
Docker下使用llama.cpp部署带Function calling和Json Mode功能的Mistral 7B模型说明:使用HuggingFace的镜像 https://hf-mirror.com/方式一:方式二(推荐):
穷人小水滴19 天前
人工智能·llama·llama.cpp·a770·vulkan·gnu/linux·sycl
(章节 3.1) 本地运行 AI 有多慢 ? 大模型推理测速 (llama.cpp, Intel GPU A770)由于本文太长, 分开发布, 方便阅读.在 4 号 PC (物理机) 上运行. 版本:运行模型 llama2-7B.q4, 生成长度 100:
穷人小水滴25 天前
ai·gpu·intel·llama.cpp·a770·vulkan·sycl
编译运行 llama.cpp (vulkan, Intel GPU SYCL)llama.cpp 是一个运行 AI (神经网络) 语言大模型的推理程序, 支持多种 后端 (backend), 也就是不同的具体的运行方式, 比如 CPU 运行, GPU 运行等.
SpikeKing1 个月前
llama·huggingface·ollama·llama.cpp·大模型部署·gguf·instruct
LLM - 使用 HuggingFace + Ollama 部署最新大模型 (GGUF 格式 与 Llama 3.1)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141028040
伊织code2 个月前
大模型·llama·量化·llama.cpp
llama.cppllama.cpp的主要目标是 使LLM推理 具有最少的设置和最先进的性能,在各种硬件–本地和云端。自启动以来,由于许多 contributions,该项目有了显著改善。 它是为ggml库 开发新功能的主要场所。
湫然Quin4 个月前
大模型·llama·模型量化·llama.cpp·模型转换
llama.cpp 转化 huggingface 模型失败 解决路径./main -m ./models/book_q4_K_M -n 128报错:terminate called after throwing an instance of 'std::out_of_range' what(): unordered_map::at
假装我不帅5 个月前
llama·qwen·llama.cpp
llama.cpp运行qwen0.5B参考05b模型下载执行转换命令将模型量化为5Bit(使用q5_k-m方法)运行尝鲜通义千问1.8B 参考 hf2gguf
szZack5 个月前
人工智能·大模型·llama.cpp
【大模型】大模型 CPU 推理之 llama.cpp描述The main goal of llama.cpp is to enable LLM inference with minimal setup and state-of-the-art performance on a wide variety of hardware - locally and in the cloud.
engchina9 个月前
oobabooga·gptq·awq·llama.cpp·exl2
本地部署 text-generation-webui一直喜欢用 FastChat 本地部署大语言模型,今天试一试 text-generation-webui 这个项目。