使用go-llama.cpp 运行 yi-01-6b大模型,使用本地CPU运行,速度挺快的

1,视频地址

2,关于llama.cpp 项目

https://github.com/ggerganov/llama.cpp

LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型(简易 Python 代码示例)手撸的纯 C/C++ 版本,用于模型推理。所谓推理,即是给输入-跑模型-得输出的模型运行过程。

那么,纯 C/C++ 版本有何优势呢?

无需任何额外依赖,相比 Python 代码对 PyTorch 等库的要求,C/C++ 直接编译出可执行文件,跳过不同硬件的繁杂准备;

支持 Apple Silicon 芯片的 ARM NEON 加速,x86 平台则以 AVX2 替代;

具有 F16 和 F32 的混合精度;

支持 4-bit 量化;

golang 的项目地址:

https://github.com/go-skynet/go-llama.cpp

3,准备工作,解决cgo编译问题

关于go-llama.cpp 项目地址:

https://github.com/go-skynet/go-llama.cpp

首先下载模型:

https://hf-mirror.com/TheBloke/Yi-6B-GGUF/tree/main

然后运行测试:

虽然模型回答的不太对,但是可以运行了,速度确实还可以。

4,只要是llama.cpp支持的模型就可以

已经支持很多模型了,都需要测试下效果。

相关推荐
还在忙碌的吴小二5 分钟前
Harness 最佳实践:Java Spring Boot 项目落地 OpenSpec + Claude Code
java·开发语言·spring boot·后端·spring
liliangcsdn6 分钟前
mstsc不在“C:\Windows\System32“下在C:\windows\WinSxS\anmd64xxx“问题分析
开发语言·windows
小陈工17 分钟前
2026年4月7日技术资讯洞察:下一代数据库融合、AI基础设施竞赛与异步编程实战
开发语言·前端·数据库·人工智能·python
KAU的云实验台20 分钟前
【算法精解】AIR期刊算法IAGWO:引入速度概念与逆多元二次权重,可应对高维/工程问题(附Matlab源码)
开发语言·算法·matlab
会编程的土豆26 分钟前
【数据结构与算法】再次全面了解LCS底层
开发语言·数据结构·c++·算法
jerryinwuhan37 分钟前
RDD第二次练习
开发语言·c#
wechat_Neal39 分钟前
Golang的车载应用场景
开发语言·后端·golang
weixin_513449961 小时前
walk_these_ways项目学习记录第八篇(通过行为多样性 (MoB) 实现地形泛化)--策略网络
开发语言·人工智能·python·学习
飞Link1 小时前
逆向兼容的桥梁:3to2 自动化降级工具实现全解析
运维·开发语言·python·自动化
曾阿伦1 小时前
Python3 文件 (夹) 操作备忘录
开发语言·python