使用 Ollama搭建代理ai工作流

前言

随着机器离线和本地工作的大型语言模型（LLMS）的需求不断增长，像 Ollama 这样的平台它可以轻松地将开源模型直接下载到我们的的硬件上，从而简化流程，直接调用Llama 3、Gemma 3 和 DeepSeek R1 等模型而无需依赖外部 API 调用。

Ollama 简介

Ollama 是一款功能强大的开源工具，旨在简化在机器上运行大型语言模型的过程。Ollama 将模型、它们的权重、配置和依赖项打包到一个易于分发的包中。这是一个简化的过程，用于运行各种 LLMS，而无需依赖项和框架的痛苦。

Ollama 具有命令行界面（CLI）和 API，因此可以轻松访问以直接使用和编程方式集成到应用程序中。它的主要功能是为这些模型提供服务，以便您可以通过简单的界面查询它们。

Ollama 的可用模型列表越来越多，你可以轻松下载和运行这些模型。这些范围包括非常流行的开源模型，具有各种大小和功能，例如 Llama 3、Mistral、Gemma 等。它们的功能各不相同，有些倾向于一般文本生成和对话，有些更适合高度专业化的用例，如代码生成、摘要，甚至多模态输入处理（例如文本和图像）。

这些功能取决于您选择的模型，在 Ollama 中，你可以尝试不同的模型来为你的项目选择最佳选项。你可以从 Ollama GitHub 存储库或 Ollama 模型搜索页面获取可用模型及其参数的列表。

在计算机上设置 Ollama

首先，下载 Ollama 安装程序应用程序。转到 Ollama 网站并下载适用于您的作系统的安装程序，如下所示：

在下一个屏幕上，我们可以在下载应用程序之前选择我们的作系统。下载应用程序后，将其安装在您的计算机上。安装 Ollama 后，它将作为后台服务在您的计算机上运行。与它交互的主要方式是通过命令行。

从 Ollama 库中提取模型

当你的应用程序启动并运行时，转到 Ollama 搜索页面以查找要下载的模型。每个型号都可以有不同的变体（例如，q4KM、q6_K、f16 等），这会影响尺寸和性能。通常，较大的文件意味着更多的参数和更好的性能，但会占用更多的磁盘空间和内存。较小的硬件被压缩分布以节省空间并在低端硬件上运行得更快，但有时会以牺牲准确性或功能为代价。

模型文件往往约为 1 GB 到 50 GB，具体取决于模型和量化。理想情况下，您需要大量的磁盘空间和一台速度相当快的机器，具有足够的 RAM（至少 8 GB，最好是 16 GB+）才能舒适地运行大型模型。

xml 复制代码

以下命令会将 LLM 下载到您的计算机上：
ollama pull <model_name>
ollama pull llama3.2

如果要查看已下载的 LLMS，可以运行以下命令列出它们：

复制代码

ollama list

从本地计算机运行模型

最后一步是通过命令行运行模型。每个模型在其页面上都有有关如何运行模型的说明。例如，我们可以使用以下命令来运行 llama3。2 在我们的机器上：

arduino 复制代码

ollama run llama3.2

运行 LLM 后，你会看到熟悉的聊天提示，你可以在其中与 LLM 交谈，就像我们熟悉的聊天提示一样，比如 ChatGPT、Claude 等。

总结

Ollama 等工具和更高效的开源模型的开发表明，本地模型在人工智能未来中的重要性日益增长。它们对于创建更加私密和易于管理的人工智能至关重要，使用户及其数据更容易访问其强大的能力。使用本地模型进行构建是一项很好的投资，可以创建一个我们拥有一个分布式、注重隐私的人工智能世界。