【大模型系列】llama.cpp本地运行大模型

上一篇链接: 【大模型系列】使用ollama本地运行千问2.5模型 我们讲了ollama本地运行大模型,这里我们介绍另一种本地运行大模型的方法:llamacpp

软件下载

下载地址:https://github.com/ggml-org/llama.cpp/releases

下载cpu版本的llamacpp;建议下载3982版本的,新版本我试了在win上运行不了

下载后是一个压缩包,解压后配置Path

配置path

把解压后的路径加入到path中

校验

任意新开命令行,输入指令:

cpp 复制代码
llama-cli -v

出现以下内容表示安装成功

启动

到模型所在目录,执行以下命令即可;下载模型可见我另一篇:链接: 【大模型系列】入门常识备忘 ,这里我们下载的gguf格式的模型

cpp 复制代码
llama-server -m qwen2.5-7b-instruct-q5_0.gguf --port 8088 -c 2048

port 是服务的端口

c 是context的意思,即最大能处理多少个token

启动后就可以通过浏览器 http://localhost:8088 访问服务了

调试开始

over~~

相关推荐
zhz52146 小时前
开源数字人框架 AWESOME-DIGITAL-HUMAN 技术解析与应用指南
人工智能·ai·机器人·开源·ai编程·ai数字人·智能体
伊织code7 小时前
MixTeX - 支持CPU推理的多模态LaTeX OCR
python·ai·ocr·latex·mixtex
夏子曦9 小时前
AI——认知建模工具:ACT-R
人工智能·机器学习·ai
豌豆花下猫9 小时前
Python 3.14 新特性盘点,更新了些什么?
后端·python·ai
zhojiew11 小时前
learning ray之ray强化学习/超参调优和数据处理
python·ai
仙人掌_lz12 小时前
从零开始理解FlashAttention:算法细节图解
人工智能·python·深度学习·算法·ai·flashattention
Johny_Zhao13 小时前
堆叠、MLAG、VPC、VSS 技术对比及架构建议
linux·网络·人工智能·python·网络安全·ai·信息安全·云计算·cisco·等保测评·huawei·系统运维
仙人掌_lz17 小时前
为特定领域微调嵌入模型:打造专属的自然语言处理利器
人工智能·ai·自然语言处理·embedding·强化学习·rl·bge
豌豆花下猫19 小时前
Python 潮流周刊#101:Rust 开发的 Python 类型检查工具(摘要)
后端·python·ai
jzwei0231 天前
为啥大模型一般将kv进行缓存,而q不需要
深度学习·ai·transformer