使用go-llama.cpp 运行 yi-01-6b大模型,使用本地CPU运行,速度挺快的

1,视频地址

2,关于llama.cpp 项目

https://github.com/ggerganov/llama.cpp

LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型(简易 Python 代码示例)手撸的纯 C/C++ 版本,用于模型推理。所谓推理,即是给输入-跑模型-得输出的模型运行过程。

那么,纯 C/C++ 版本有何优势呢?

无需任何额外依赖,相比 Python 代码对 PyTorch 等库的要求,C/C++ 直接编译出可执行文件,跳过不同硬件的繁杂准备;

支持 Apple Silicon 芯片的 ARM NEON 加速,x86 平台则以 AVX2 替代;

具有 F16 和 F32 的混合精度;

支持 4-bit 量化;

golang 的项目地址:

https://github.com/go-skynet/go-llama.cpp

3,准备工作,解决cgo编译问题

关于go-llama.cpp 项目地址:

https://github.com/go-skynet/go-llama.cpp

首先下载模型:

https://hf-mirror.com/TheBloke/Yi-6B-GGUF/tree/main

然后运行测试:

虽然模型回答的不太对,但是可以运行了,速度确实还可以。

4,只要是llama.cpp支持的模型就可以

已经支持很多模型了,都需要测试下效果。

相关推荐
半个番茄1 小时前
C 或 C++ 中用于表示常量的后缀:1ULL
c语言·开发语言·c++
玉带湖水位记录员2 小时前
状态模式——C++实现
开发语言·c++·状态模式
Eiceblue3 小时前
Python 合并 Excel 单元格
开发语言·vscode·python·pycharm·excel
SomeB1oody4 小时前
【Rust自学】15.2. Deref trait Pt.1:什么是Deref、解引用运算符*与实现Deref trait
开发语言·后端·rust
情深不寿3175 小时前
C++----STL(list)
开发语言·c++
SomeB1oody5 小时前
【Rust自学】15.4. Drop trait:告别手动清理,释放即安全
开发语言·后端·rust
liruiqiang056 小时前
DDD-全面理解领域驱动设计中的各种“域”
开发语言·架构
前端熊猫6 小时前
JavaScript 的 Promise 对象和 Promise.all 方法的使用
开发语言·前端·javascript
weixin_421133416 小时前
编写python 后端 vscode 安装插件大全
开发语言·vscode·python
_GR6 小时前
Java程序基础⑪Java的异常体系和使用
java·开发语言