Ollama API 应用指南

1. 基础信息
  • 默认地址 : http://localhost:11434/api
  • 数据格式 : application/json
  • 支持方法 : POST(主要)、GET(部分接口)

2. 模型管理 API

(1) 列出本地模型
  • 端点 : GET /api/tags

  • 功能: 获取已下载的模型列表。

  • 示例 :

    bash 复制代码
    curl http://localhost:11434/api/tags
    python 复制代码
    import requests
    response = requests.get("http://localhost:11434/api/tags")
    print(response.json()["models"])
(2) 拉取模型
  • 端点 : POST /api/pull

  • 参数 :

    • name: 模型名称(必需,如 llama3:8b
    • stream: 是否流式显示进度(默认 true
    • insecure: 是否跳过 TLS 验证(默认 false
  • 示例 :

    bash 复制代码
    curl http://localhost:11434/api/pull -d '{"name": "mistral"}'
    python 复制代码
    response = requests.post(
        "http://localhost:11434/api/pull",
        json={"name": "mistral", "stream": False}
    )
(3) 删除模型
  • 端点 : DELETE /api/delete

  • 参数 : name(模型名称)

  • 示例 :

    bash 复制代码
    curl -X DELETE http://localhost:11434/api/delete -d '{"name": "llama2"}'
    python 复制代码
    response = requests.delete(
        "http://localhost:11434/api/delete",
        json={"name": "llama2"}
    )
(4) 创建自定义模型
  • 端点 : POST /api/create

  • 参数 : name(模型名)、modelfile(模型配置内容)

  • 示例 :

    bash 复制代码
    curl http://localhost:11434/api/create -d '{
      "name": "my-llama",
      "modelfile": "FROM llama3\nSYSTEM 你是一个法律助手"
    }'

3. 文本生成与交互

(1) 生成文本 (/api/generate)
  • 参数 :

    json 复制代码
    {
      "model": "模型名",
      "prompt": "输入文本",
      "system": "系统提示(可选)",
      "template": "模板(覆盖默认提示格式)",
      "context": [数组,历史上下文ID],
      "stream": false,
      "options": {
        "temperature": 0.8,
        "top_p": 0.9,
        "max_tokens": 1000,
        "num_ctx": 4096
      }
    }
  • 响应 :

    json 复制代码
    {
      "model": "模型名",
      "response": "生成文本",
      "context": [新的上下文ID],
      "done": true
    }
  • Python 流式处理 :

    python 复制代码
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={"model": "llama3", "prompt": "写一篇科幻小说开头", "stream": True},
        stream=True
    )
    for line in response.iter_lines():
        if line:
            print(json.loads(line)["response"], end="", flush=True)
(2) 多轮对话 (/api/chat)
  • 参数 :

    json 复制代码
    {
      "model": "模型名",
      "messages": [
        {"role": "user", "content": "内容1"},
        {"role": "assistant", "content": "内容2"}
      ],
      "stream": false
    }
  • 响应 :

    json 复制代码
    {
      "message": {"role": "assistant", "content": "回复内容"},
      "context": [上下文ID]
    }
  • Python 示例 :

    python 复制代码
    messages = [
        {"role": "user", "content": "如何学习Python?"},
        {"role": "assistant", "content": "先掌握基础语法。"},
        {"role": "user", "content": "推荐一本书?"}
    ]
    response = requests.post(
        "http://localhost:11434/api/chat",
        json={"model": "llama3", "messages": messages}
    )
    print(response.json()["message"]["content"])

4. 嵌入向量 (/api/embeddings)

  • 参数 :

    json 复制代码
    {
      "model": "模型名",
      "prompt": "输入文本",
      "options": {"temperature": 0.5}  # 可选参数
    }
  • 响应 :

    json 复制代码
    {
      "embedding": [0.1, -0.2, ...]  # 浮点数数组
    }
  • Python 示例 :

    python 复制代码
    response = requests.post(
        "http://localhost:11434/api/embeddings",
        json={"model": "llama3", "prompt": "自然语言处理"}
    )
    vector = response.json()["embedding"]

5. 高级功能与参数

(1) 上下文延续
  • 在生成请求中传递 context 数组以维持对话状态:

    python 复制代码
    response1 = requests.post("/api/generate", json={"model": "llama3", "prompt": "你好"})
    context = response1.json()["context"]
    
    response2 = requests.post(
        "/api/generate",
        json={"model": "llama3", "prompt": "继续上文", "context": context}
    )
(2) 性能调优参数
  • options 字段支持以下关键参数:

    json 复制代码
    {
      "num_ctx": 4096,      // 上下文窗口大小
      "num_gqa": 8,         // Grouped-Query Attention 组数
      "num_gpu": 1,         // GPU 层数(仅限支持GPU的模型)
      "main_gpu": 0,        // 主 GPU 索引
      "temperature": 0.7,   // 随机性(0-1)
      "repeat_penalty": 1.1 // 抑制重复生成
    }

6. 错误处理

  • 常见状态码 :

    • 400: 请求参数错误
    • 404: 模型不存在
    • 500: 服务器内部错误
  • 错误响应格式 :

    json 复制代码
    {
      "error": "错误描述"
    }

7. 完整 Python 客户端示例

python 复制代码
import ollama

# 生成文本
response = ollama.generate(
    model='llama3', 
    prompt='用一句话解释人工智能',
    options={'temperature': 0.5}
)
print(response['response'])

# 流式对话
stream = ollama.chat(
    model='llama3',
    messages=[{'role': 'user', 'content': '写一首五言绝句'}],
    stream=True
)
for chunk in stream:
    print(chunk['message']['content'], end='', flush=True)

# 获取嵌入向量
embedding = ollama.embeddings(model='llama3', prompt='深度学习')
print(embedding['embedding'][:5])  # 打印前5维

8. 注意事项

  1. 模型兼容性

    • 不同模型支持的参数可能不同(如 GPU 加速需模型编译时启用 CUDA)。
  2. 长上下文处理

    • 增大 num_ctx 可能导致内存不足,建议逐步测试。
  3. 流式传输优化

    • 使用 stream=True 时,客户端需逐块处理数据以减少延迟。
  4. 自定义模型集成

    • 通过 Modelfile 创建的模型可直接通过 API 调用(model: 自定义模型名)。

通过此指南,可全面掌握 Ollama API 的核心功能,适用于开发聊天机器人、自动化脚本、语义分析等多种场景。

相关推荐
程序员X小鹿3 小时前
用了两天最近很火的秘塔AI「今天学点啥」,网址、文档秒变视频课程!虽不完美,但依然力挺!(附实测体验)
aigc
徐凤年_4 小时前
Ubuntu20.04下GraspNet复现流程中的问题
linux·python·ubuntu·ai
想学好英文的ikun5 小时前
【MCP】第二篇:IDE革命——用MCP构建下一代智能工具链
ide·人工智能·python·ai·个人开发·mcp
数据智能老司机5 小时前
使用 FastAPI 构建生成式 AI 服务——与生成模型的实时通信
llm·openai·fastapi
数据智能老司机5 小时前
使用 FastAPI 构建生成式 AI 服务——AI集成与模型服务
llm·openai·fastapi
结冰架构6 小时前
量子金融工程:蒙特卡洛算法误差压缩至0.3%
人工智能·算法·ai·金融·量子计算
亚里随笔6 小时前
TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革
人工智能·llm·agent·agentic rl
量子位7 小时前
北大团队引领 3D 生成与对齐革新:OctGPT 打破扩散模型垄断
人工智能·gpt·aigc
量子位7 小时前
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华 & 上海 AI Lab
人工智能·gitlab·aigc