使用go-llama.cpp 运行 yi-01-6b大模型,使用本地CPU运行,速度挺快的

1,视频地址

2,关于llama.cpp 项目

https://github.com/ggerganov/llama.cpp

LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型(简易 Python 代码示例)手撸的纯 C/C++ 版本,用于模型推理。所谓推理,即是给输入-跑模型-得输出的模型运行过程。

那么,纯 C/C++ 版本有何优势呢?

无需任何额外依赖,相比 Python 代码对 PyTorch 等库的要求,C/C++ 直接编译出可执行文件,跳过不同硬件的繁杂准备;

支持 Apple Silicon 芯片的 ARM NEON 加速,x86 平台则以 AVX2 替代;

具有 F16 和 F32 的混合精度;

支持 4-bit 量化;

golang 的项目地址:

https://github.com/go-skynet/go-llama.cpp

3,准备工作,解决cgo编译问题

关于go-llama.cpp 项目地址:

https://github.com/go-skynet/go-llama.cpp

首先下载模型:

https://hf-mirror.com/TheBloke/Yi-6B-GGUF/tree/main

然后运行测试:

虽然模型回答的不太对,但是可以运行了,速度确实还可以。

4,只要是llama.cpp支持的模型就可以

已经支持很多模型了,都需要测试下效果。

相关推荐
dengzhenyue8 小时前
C# 初级编程
开发语言·c#
jf加菲猫9 小时前
条款20:对于类似std::shared_ptr但有可能空悬的指针使用std::weak_ptr
开发语言·c++
jf加菲猫9 小时前
条款21:优先选用std::make_unique、std::make_shared,而非直接new
开发语言·c++
消失的旧时光-194310 小时前
Kotlin 高阶函数在回调设计中的最佳实践
android·开发语言·kotlin
LucianaiB10 小时前
掌握 Rust:从内存安全到高性能服务的完整技术图谱
开发语言·安全·rust
m0_7482402510 小时前
C++ 游戏开发示例:简单的贪吃蛇游戏
开发语言·c++·游戏
兰亭妙微11 小时前
2026年UX/UI五大趋势:AI、AR与包容性设计将重新定义用户体验
开发语言·ui·1024程序员节·界面设计·设计趋势
懒羊羊不懒@11 小时前
Java—枚举类
java·开发语言·1024程序员节
m0_7482402511 小时前
C++智能指针使用指南(auto_ptr, unique_ptr, shared_ptr, weak_ptr)
java·开发语言·c++
Evand J11 小时前
【MATLAB例程】自适应渐消卡尔曼滤波,背景为二维雷达目标跟踪,基于扩展卡尔曼(EKF)|附完整代码的下载链接
开发语言·matlab·目标跟踪·1024程序员节