Ollama：本地大语言模型（LLM）部署 && 使用 Ollama 构建一个智能问答系统

Ollama：本地大语言模型（LLM）部署

Ollama：本地大语言模型的高效运行工具

文章目录

Ollama：本地大语言模型（LLM）部署
前言
一、OLLAMA是什么？
二、从安装到集成
- [1. 环境准备](#1. 环境准备)
- [2. 安装 Ollama](#2. 安装 Ollama)
- [3. 下载模型](#3. 下载模型)
- [4. 启动模型](#4. 启动模型)
- [5. 与模型交互](#5. 与模型交互)
- [6. 集成到应用中](#6. 集成到应用中)
- [7. 优化与微调](#7. 优化与微调)
[三、**使用 Ollama 构建一个智能问答系统**](#三、使用 Ollama 构建一个智能问答系统)
- [1. 环境准备](#1. 环境准备)
- [2. 安装 Ollama](#2. 安装 Ollama)
- [3. 下载模型](#3. 下载模型)
- [4. 启动模型](#4. 启动模型)
- [5.创建 Flask 应用](#5.创建 Flask 应用)
- [6.运行 Flask 应用](#6.运行 Flask 应用)
- [7. 测试问答系统](#7. 测试问答系统)
- [8. 查看模型输出](#8. 查看模型输出)
- [9. 项目结构](#9. 项目结构)
- [10. 常见问题解答](#10. 常见问题解答)
总结

前言

近年来，大语言模型（LLMs）的应用在多个行业中呈现爆发式增长，开发者们不仅在追求模型能力的提升，还愈发重视如何在本地更高效、私密地运行这些模型。正是在这种需求的推动下，Ollama 作为一款专注于本地运行 LLM 的工具迅速引起了广泛关注。今天，我将带你深入了解 Ollama 的强大功能，展示如何利用它提升你的 AI 开发效率，让你在这条技术前沿的道路上游刃有余。

一、OLLAMA是什么？

Ollama是一个开源工具，旨在帮助用户在本地环境中部署和运行大型语言模型。其核心功能是提供一个简单、灵活的方式，将这些复杂的AI模型从云端迁移到本地机器上，使得用户可以在自己的硬件上进行高效的处理和使用。

主要特点

本地部署

复制代码

**私密性和安全性**：通过本地部署，Ollama使得用户能够在不将数据上传到云端的情况下进行模型训练和推理。
这对于需要处理敏感信息或希望保护数据隐私的用户特别重要。

**离线工作**：本地部署意味着即使没有互联网连接，你也可以继续使用和测试语言模型，增强了工作的灵活性。

支持多种模型

复制代码

**兼容性**：Ollama支持多种流行的语言模型和架构，用户可以选择适合自己需求的模型进行部署。这包括但不限于GPT系列、BERT系列等。

用户友好的界面

简洁的配置 ：Ollama提供了易于使用的配置文件和命令行界面，使得用户可以方便地进行设置和管理。例如，你可以通过简单的命令来启动、停止模型服务或调整配置。

文档和支持：Ollama有详细的文档和指南，帮助用户快速上手。即便你对本地部署不熟悉，也可以通过这些资源进行学习。

性能优化

高效运行：Ollama在设计上注重性能，优化了模型的加载和运行速度。这意味着即使在本地计算机上，模型也能高效地处理大量数据和复杂任务。

资源管理：它能够智能地管理计算资源，避免过度消耗本地硬件的性能，保证平稳运行。

可定制性

自定义模型：用户可以根据需求对模型进行定制，调整模型参数，或者结合自己的数据进行微调，以更好地适应具体应用场景。

插件和扩展：Ollama支持通过插件和扩展功能进一步增强其能力，允许用户添加新的功能模块或与其他工具集成。

二、从安装到集成

1. 环境准备

首先，确保你的机器符合 Ollama 的系统要求。它主要支持 macOS 和 Linux

2. 安装 Ollama

接下来，我们要安装 Ollama。对于 macOS 用户，可以通过 Homebrew 安装：

bash 复制代码

brew install ollama/tap/ollama

而 Linux 用户则可以使用下面的命令：

bash 复制代码

curl -sSL https://ollama.com/download.sh | sh

安装完成后，别忘了验证一下是否成功：

bash 复制代码

ollama --version

3. 下载模型

Ollama 支持多种流行的大语言模型。你可以根据你的需求选择合适的模型。比如说，我们来下载一个 GPT-3 模型：

bash 复制代码

ollama pull gpt-3

如果你想查看所有已下载的模型，可以运行：

bash 复制代码

ollama list

4. 启动模型

模型下载完成后，我们可以启动它。执行以下命令，模型会在本地服务器上运行，默认使用 8080 端口：

bash 复制代码

ollama run gpt-3

5. 与模型交互

模型启动后，我们就可以开始与其进行交互了！你可以使用 curl 发送请求，或者用你喜欢的 HTTP 客户端。

例如，使用 curl 发送请求：

bash 复制代码

curl -X POST http://localhost:8080/gpt-3 -H "Content-Type: application/json" -d '{"prompt": "写一篇关于人工智能的文章。"}'

6. 集成到应用中

接下来，如何把 Ollama 集成到你的应用中呢？我们可以用 Flask 来创建一个简单的 web 应用。

安装 Flask 和请求库：

bash 复制代码

pip install Flask requests

创建一个 app.py 文件：
在这个文件里，我们来设置一个简单的 API。

python 复制代码

from flask import Flask, request, jsonify
import requests

app = Flask(__name__)

@app.route('/generate', methods=['POST'])
def generate_text():
    prompt = request.json.get('prompt')
    response = requests.post("http://localhost:8080/gpt-3", json={"prompt": prompt})
    return jsonify(response.json())

if __name__ == '__main__':
    app.run(port=5000)

运行 Flask 应用：
在终端中运行你的 Flask 应用：

bash 复制代码

python app.py

发送请求进行测试：

你可以使用 Postman 或 curl 来测试这个 API：

bash 复制代码

curl -X POST http://localhost:5000/generate -H "Content-Type: application/json" -d '{"prompt": "写一篇关于量子计算的文章。"}'

7. 优化与微调

根据你的具体需求，Ollama 还允许你对模型进行微调。准备好数据后，使用以下命令：

bash 复制代码

ollama fine-tune gpt-3 --data your_custom_data.json

三、使用 Ollama 构建一个智能问答系统

1. 环境准备

首先，我们需要准备好运行环境。

操作系统： 支持 macOS 或 Linux。
Python： 我们将使用 Python 3.7 或更高版本。

安装 Python：

MacOS ：可以通过 Homebrew 安装：

bash 复制代码

brew install python

Ubuntu（Linux）用户可以使用：

bash 复制代码

sudo apt update
sudo apt install python3 python3-pip

验证安装： 在终端输入以下命令，看看 Python 是否安装成功：

bash 复制代码

python3 --version

2. 安装 Ollama

接下来，我们要安装 Ollama，这样就能在本地运行大语言模型了。

macOS 用户：

打开终端，输入：

bash 复制代码

brew install ollama/tap/ollama

Linux 用户：
在终端中执行：

bash 复制代码

curl -sSL https://ollama.com/download.sh | sh

验证安装：运行以下命令，确保 Ollama 安装成功：

bash 复制代码

ollama --version

3. 下载模型

现在我们来下载 GPT-3 模型，准备好数据来为问答系统提供支持。在终端输入：

bash 复制代码

ollama pull gpt-3

这个过程可能需要一点时间，耐心等候。。。。。

4. 启动模型

下载完成后，启动模型服务，让它为我们工作：

bash 复制代码

ollama run gpt-3

成功后你会看到模型正在监听 8080 端口的消息，表示模型准备就绪！

5.创建 Flask 应用

现在开始最有趣的部分：创建一个 Flask 应用来处理用户请求。

安装 Flask 和 Requests：

在终端运行以下命令，安装 Flask 和 Requests 库：

bash 复制代码

pip install Flask requests

创建项目目录：

在终端中创建一个新文件夹并进入：

bash 复制代码

mkdir my_qa_system
cd my_qa_system

创建 app.py 文件：

在项目目录中创建一个名为 app.py 的文件，打开它，添加以下代码：

python 复制代码

from flask import Flask, request, jsonify
import requests

app = Flask(__name__)

@app.route('/ask', methods=['POST'])
def ask():
    question = request.json.get('question')
    try:
        payload = {
            "prompt": question,
            "max_tokens": 150
        }
        response = requests.post("http://localhost:8080/gpt-3", json=payload)
        response.raise_for_status()
        answer = response.json().get('output', '抱歉，我无法回答这个问题。')
    except Exception as e:
        answer = f"发生错误: {str(e)}"
    
    return jsonify({"question": question, "answer": answer})

if __name__ == '__main__':
    app.run(port=5000)

代码解释：

导入库：我们引入 Flask 和 Requests，用于构建 Web 应用和发送请求。
创建 Flask 应用：用 Flask(name) 创建应用实例。
定义路由：设置一个 /ask 接口，处理用户的 POST 请求。
获取用户问题：从请求中提取问题。
请求模型：将问题发送给 Ollama 模型，获取回答。
返回结果：将问题和回答以 JSON 格式返回。

6.运行 Flask 应用

在终端中，确保你在项目目录下，运行：

bash 复制代码

python app.py

你会看到类似"* Running on http://127.0.0.1:5000"的消息，表示 Flask 应用启动成功

7. 测试问答系统

使用 cURL 测试：

在另一个终端窗口，使用 cURL 发送请求：

bash 复制代码

curl -X POST http://localhost:5000/ask -H "Content-Type: application/json" -d '{"question": "人工智能的未来是什么？"}'

使用 Postman 测试：

打开 Postman。
选择 POST 请求。
输入 URL：http://localhost:5000/ask。
在 Body 选项卡中选择 raw，并选择 JSON 格式。
输入以下内容：

json 复制代码

{
    "question": "人工智能的未来是什么？"
}

点击 Send。

8. 查看模型输出

模型会根据输入的问题生成回答，并返回 JSON 格式的响应。你会看到类似的输出：

json 复制代码

{
    "question": "人工智能的未来是什么？",
    "answer": "人工智能的未来可能会涉及更多的自动化、智能化决策和人机协作。"
}

9. 项目结构

为了保持项目整洁，可以按照以下结构组织文件：

bash 复制代码

my_qa_system/
│
├── app.py          # Flask 应用代码
└── requirements.txt # 依赖库列表（可选）

10. 常见问题解答

- 模型未能启动：

复制代码

	检查网络连接，确保 Ollama 安装正确，且未占用其他端口。

- Flask 应用无法访问：

复制代码

 确认 Flask 运行在正确的端口，并且没有其他应用占用该端口。

- 模型未返回预期答案：

复制代码

	  检查发送给模型的问题格式是否正确。

总结

通过以上步骤，我们详细探讨了如何使用 Ollama 部署和管理大语言模型。无论是启动模型、与其交互，还是将其集成到你的应用中，Ollama 都能为你提供极大的便利。

如果你在过程中有任何疑问，欢迎随时交流！

希望这篇指南对你有所帮助，祝你在 AI 的探索旅程中取得成功！