.NET 实战 LlamaSharp:本地运行开源大模型

一、什么是 LlamaSharp

LlamaSharp 是 llama.cpp 的 .NET 官方绑定库 ,让你在 纯本地、无外网、无 API 费用 的情况下运行 Llama 3、Qwen、Mistral、Gemma、Phi 等大模型。

特点:

  • 纯 CPU / GPU 均可运行
  • 支持 GGUF 量化模型(4-bit/8-bit)
  • 支持流式输出
  • 支持多轮对话上下文
  • 跨平台:Windows / Linux / macOS
  • .NET 6/7/8 全支持

二、环境搭建(一步到位)

1. 创建项目

bash 复制代码
dotnet new console -n LlamaSharpDemo
cd LlamaSharpDemo

2. 安装 NuGet 包(直接复制)

bash 复制代码
dotnet add package LlamaSharp

如需 NVIDIA CUDA 加速

bash 复制代码
dotnet add package LlamaSharp.Runtime.Cuda

3. 下载模型(GGUF 格式)

推荐下载站点:

https://huggingface.co/models?search=gguf

新手推荐模型:

  • Llama 3 8B Instruct q4_k_m.gguf
  • Qwen 7B Instruct q4_k_m.gguf

下载后:

  1. 在项目根目录新建 Models 文件夹
  2. .gguf 模型放入其中
  3. 文件属性 → 复制到输出目录:如果较新则复制

三、基础示例:一次性生成文本(可直接复制)

csharp 复制代码
using LlamaSharp;

// 模型路径(自行修改为你的模型名称)
var modelPath = @"Models\llama-3-8b-instruct-q4_k_m.gguf";

// 模型配置
var parameters = new ModelParams(modelPath)
{
    ContextSize = 2048,
    GpuLayerCount = 0 // 使用CPU设0,NVIDIA可设20/50
};

// 加载模型
using var model = LlamaModel.LoadFromParams(parameters);
using var engine = new InferenceEngine(model);

// 提示词
var prompt = "请用C#写一个单例模式,线程安全";

// 生成
var result = engine.Generate(prompt, new GenerateParams
{
    MaxTokens = 1024,
    Temperature = 0.3f
});

// 输出
Console.WriteLine("=== AI 回答 ===");
Console.WriteLine(result);

四、高级示例:流式输出(逐字打印)

csharp 复制代码
using LlamaSharp;

var modelPath = @"Models\llama-3-8b-instruct-q4_k_m.gguf";

var parameters = new ModelParams(modelPath)
{
    ContextSize = 2048,
    GpuLayerCount = 0
};

using var model = LlamaModel.LoadFromParams(parameters);
using var engine = new InferenceEngine(model);

Console.WriteLine("请输入问题:");
var userInput = Console.ReadLine();

Console.WriteLine("\n=== AI 正在回复 ===");

await foreach (var token in engine.GenerateStreamingAsync(userInput, new GenerateParams
{
    MaxTokens = 2048,
    Temperature = 0.5f
}))
{
    Console.Write(token);
}

Console.WriteLine("\n=== 完成 ===");

五、企业级示例:多轮对话机器人(带上下文记忆)

这是生产可用版本,支持:

  • 系统提示词
  • 上下文记忆
  • 流式输出
  • 无限聊天(自动管理上下文)
csharp 复制代码
using LlamaSharp;

// 模型路径
var modelPath = @"Models\llama-3-8b-instruct-q4_k_m.gguf";

var parameters = new ModelParams(modelPath)
{
    ContextSize = 4096,
    GpuLayerCount = 0
};

using var model = LlamaModel.LoadFromParams(parameters);
using var engine = new InferenceEngine(model);

// 初始化对话历史
var chat = new ChatHistory();

// 系统提示词(定义AI性格)
chat.AddMessage(ChatRole.System, """
你是一个专业的.NET编程助手,回答简洁、专业、带代码示例,不啰嗦。
""");

Console.WriteLine("=== .NET 本地AI聊天机器人(输入 exit 退出)===");

while (true)
{
    Console.Write("\n你:");
    var input = Console.ReadLine();

    if (input?.ToLower() == "exit") break;
    if (string.IsNullOrWhiteSpace(input)) continue;

    // 添加用户消息
    chat.AddMessage(ChatRole.User, input);

    // AI 回复
    Console.Write("AI:");
    var reply = "";

    await foreach (var token in engine.GenerateChatStreamingAsync(chat, new GenerateParams
    {
        MaxTokens = 2048,
        Temperature = 0.4f
    }))
    {
        reply += token;
        Console.Write(token);
    }

    // 保存AI回复到上下文
    chat.AddMessage(ChatRole.Assistant, reply);
    Console.WriteLine();
}

六、关键参数说明(必看)

参数 说明
ContextSize 上下文窗口,越大记忆越强
GpuLayerCount GPU 加速层数,CPU 设 0
MaxTokens 最大生成长度
Temperature 0=最确定,1=最随机
ChatHistory 对话上下文,实现多轮聊天

七、运行方法

  1. 复制代码
  2. 替换模型路径
  3. 运行
bash 复制代码
dotnet run

八、支持模型列表

LlamaSharp 支持所有 GGUF 格式 模型:

  • Llama 2 / Llama 3
  • Qwen(通义千问)
  • Mistral
  • Gemma
  • Phi 2 / 3
  • Baichuan
  • ChatGLM

相关推荐
CSharp精选营3 小时前
推荐一个开箱即用的.NET权限管理平台:Magic.NET
.net·开源项目·权限管理·企业级框架·后台脚手架
切糕师学AI1 天前
.NET CLR GC 调优完全指南:从理论到生产实战
.net·gc·clr
唐青枫1 天前
C#.NET TaskCompletionSource 深入解析:手动控制 Task、桥接回调事件与实战避坑
c#·.net
OctShop大型商城源码1 天前
C#.NET多商户商城系统源码_OctShop:技术与机遇的融合
c#·.net·多商户商城系统源码·商城系统源码
编码者卢布1 天前
【App Service】常规排查 App Service 启动 Application Insights 无数据的步骤 (.NET版本)
python·flask·.net
rockey6272 天前
AScript函数体系详解
c#·.net·script·eval·expression·function·动态脚本
忧郁的蛋~2 天前
基于.NET的Windows窗体编程之WinForms数据表格
windows·.net
量子物理学2 天前
c# 工业自动化运动控制,雷赛、高川、固高、正运动对比
.net·自动化运动控制
唐青枫2 天前
C#.NET Task 与 async await 深入解析:底层原理、执行流程与实战误区
c#·.net