【AI大模型入门（三）】大模型API接入、Ollama本地部署与RAG核心（Embedding）

[一、 AI 接入方式选型：云端 vs 本地](#一、 AI 接入方式选型：云端 vs 本地)

[二、实战1：通过 API 接入（以 OpenAI/兼容协议为例）](#二、实战1：通过 API 接入（以 OpenAI/兼容协议为例）)

[三、实战2：Ollama 本地私有化部署](#三、实战2：Ollama 本地私有化部署)

[四、进阶：什么是 Embedding 与 RAG？](#四、进阶：什么是 Embedding 与 RAG？)

[1. 什么是 Embedding 模型？](#1. 什么是 Embedding 模型？)

[2. RAG 的标准工作流](#2. RAG 的标准工作流)

导语： 作为开发者，光会在网页端和 AI 聊天是不够的。我们需要让 AI 融入到我们的业务流、脚本和后端服务中。本文将带你实战大模型接入的三种核心方式：API 远程调用、Ollama 本地部署，并为你揭开企业私有知识库方案（RAG）背后的核心秘密------Embedding。

一、 AI 接入方式选型：云端 vs 本地

我们要将大模型能力接入自己的应用，通常面临两个选择：

API 接入（闭源/商业大模型）： - 优势： 速度快、无需关心硬件（不用买显卡）、模型智商通常最高（如 GPT-5、Claude 3.7）。
- 劣势： 数据需出境/上云（有隐私合规风险），按 Token 消耗计费。
本地部署（开源大模型）：
- 优势： 绝对的数据隐私，断网可用，一次性硬件投资后无限次使用。
- 劣势： 需要高性能 GPU，运维成本高，模型能力受限于本地算力（通常使用蒸馏版本如 8B、14B 级别模型）。

二、实战1：通过 API 接入（以 OpenAI/兼容协议为例）

目前业界大多遵循了 OpenAI 的接口规范格式（包括 DeepSeek、Qwen 很多接口也完全兼容）。使用官方 Python SDK 调用极其简单。

1. 安装依赖：

复制代码

pip install openai

2. 代码实战：

复制代码

from openai import OpenAI

# 很多国内大模型也兼容这套 API，只需替换 base_url 和 api_key
client = OpenAI(
    api_key="your-api-key",
    base_url="[https://api.deepseek.com/v1](https://api.deepseek.com/v1)" # 假设使用 DeepSeek 的 API
)

response = client.chat.completions.create(
    model="deepseek-reasoner", # 调用带思考过程的推理模型
    messages=[
        {"role": "system", "content": "你是一个资深的 Python 架构师。"},
        {"role": "user", "content": "请解释一下什么是协程？"}
    ]
)

# 打印回复
print(response.choices[0].message.content)

仅仅十几行代码，你就可以把顶级大模型的智力接入到你自己的系统、微信机器人或者数据处理脚本中。

三、实战2：Ollama 本地私有化部署

如果你公司的数据极其敏感，不允许上传给第三方接口，那么本地部署开源模型是唯一选择。Ollama 是目前最好用的本地 LLM 运行与管理工具。

1. 安装 Ollama： 访问 Ollama 官网下载对应系统（Windows/Mac/Linux）的安装包并傻瓜式安装。

2. 一键拉取并运行模型： 以拉取表现惊艳的 DeepSeek-R1（1.5B 蒸馏版，普通轻薄本即可流畅运行）为例。打开命令行，输入：

复制代码

ollama run deepseek-r1:1.5b

Ollama 会自动下载权重并加载到内存/显存中。下载完成后，直接在终端就能和它对话了！

3. API 调用本地模型： Ollama 默认会在本地 11434 端口提供兼容 API。你的代码可以无缝切换为本地模型：

复制代码

import requests
import json

url = "[http://127.0.0.1:11434/api/chat](http://127.0.0.1:11434/api/chat)"
payload = {
    "model": "deepseek-r1:1.5b",
    "messages": [
        {"role": "user", "content": "写一个计算斐波那契数列的函数"}
    ],
    "stream": False
}
response = requests.post(url, json=payload)
print(response.json()["message"]["content"])

四、进阶：什么是 Embedding 与 RAG？

当你遇到这个问题："我想让大模型基于我们公司长达 500 页的《员工手册》来回答问题"，你该怎么办？

直接发给 API？上下文长度受限，且每次都要消耗巨大的 Token 成本。
微调模型？成本高昂，且微调主要为了改风格，不适合用来注入具体的实时知识。

黄金解法是：RAG（Retrieval-Augmented Generation，检索增强生成） 。而 RAG 的核心基石，就是 Embedding 模型。

1. 什么是 Embedding 模型？

大模型是生成文字的，而 Embedding 模型是表示文字的。它把一段文字翻译成一段"由数百个浮点数组成的数组"（称为向量）。 "电脑充不进电" -> [0.12, -0.55, 0.89, ...]

向量的魔法在于：**语义相近的文字，它们在数学空间里的距离非常近。**即使文字完全不同（比如"电池坏了"和"无法开机"），它们的向量距离也很近。

2. RAG 的标准工作流

知识切片与向量化： 把《员工手册》切成一段段小文本，用 Embedding 模型变成几千个向量，存入向量数据库（如 Milvus、Chroma）。
检索（Retrieval）： 员工提问"年假怎么算？"，先把提问也 Embedding 成向量，去数据库里做数学距离比对，瞬间找出最相关的 3 段条款文本。
增强生成（Generation）： 把找出来的 3 段条款，连同员工的问题，组合成提示词发给 LLM："请基于以下提供的公司条款，回答员工的年假问题。条款： $此处贴上检索出的文本$ "。

通过 Embedding 和 RAG，大模型不再是仅仅凭借远古训练数据"背书"的文科生，而是变成了开卷考试、字斟句酌的企业业务专家！

总结： 掌握 API 接入让你具备整合 AI 能力的筹码；掌握 Ollama 让你实现了 AI 自由；掌握 Embedding 和 RAG，则让你真正拿到了开发企业级 AI 商业落地的钥匙。从原理、Prompt 到工程实践，这就是大语言模型应用开发的全景图。

【AI大模型入门（三）】大模型API接入、Ollama本地部署与RAG核心（Embedding）

一、 AI 接入方式选型：云端 vs 本地

二、 实战1：通过 API 接入（以 OpenAI/兼容协议为例）

三、 实战2：Ollama 本地私有化部署

四、进阶：什么是 Embedding 与 RAG？

1. 什么是 Embedding 模型？

2. RAG 的标准工作流

二、实战1：通过 API 接入（以 OpenAI/兼容协议为例）

三、实战2：Ollama 本地私有化部署