【AI大模型入门(三)】大模型API接入、Ollama本地部署与RAG核心(Embedding)

上篇文章:【AI大模型入门(二)】提示词工程进阶

目录

[一、 AI 接入方式选型:云端 vs 本地](#一、 AI 接入方式选型:云端 vs 本地)

[二、 实战1:通过 API 接入(以 OpenAI/兼容协议为例)](#二、 实战1:通过 API 接入(以 OpenAI/兼容协议为例))

[三、 实战2:Ollama 本地私有化部署](#三、 实战2:Ollama 本地私有化部署)

[四、 进阶:什么是 Embedding 与 RAG?](#四、 进阶:什么是 Embedding 与 RAG?)

[1. 什么是 Embedding 模型?](#1. 什么是 Embedding 模型?)

[2. RAG 的标准工作流](#2. RAG 的标准工作流)


导语: 作为开发者,光会在网页端和 AI 聊天是不够的。我们需要让 AI 融入到我们的业务流、脚本和后端服务中。本文将带你实战大模型接入的三种核心方式:API 远程调用、Ollama 本地部署,并为你揭开企业私有知识库方案(RAG)背后的核心秘密------Embedding。

一、 AI 接入方式选型:云端 vs 本地

我们要将大模型能力接入自己的应用,通常面临两个选择:

  1. API 接入(闭源/商业大模型): - 优势: 速度快、无需关心硬件(不用买显卡)、模型智商通常最高(如 GPT-5、Claude 3.7)。

    • 劣势: 数据需出境/上云(有隐私合规风险),按 Token 消耗计费。
  2. 本地部署(开源大模型):

    • 优势: 绝对的数据隐私,断网可用,一次性硬件投资后无限次使用。

    • 劣势: 需要高性能 GPU,运维成本高,模型能力受限于本地算力(通常使用蒸馏版本如 8B、14B 级别模型)。

二、 实战1:通过 API 接入(以 OpenAI/兼容协议为例)

目前业界大多遵循了 OpenAI 的接口规范格式(包括 DeepSeek、Qwen 很多接口也完全兼容)。使用官方 Python SDK 调用极其简单。

1. 安装依赖:

复制代码
pip install openai

2. 代码实战:

复制代码
from openai import OpenAI

# 很多国内大模型也兼容这套 API,只需替换 base_url 和 api_key
client = OpenAI(
    api_key="your-api-key",
    base_url="[https://api.deepseek.com/v1](https://api.deepseek.com/v1)" # 假设使用 DeepSeek 的 API
)

response = client.chat.completions.create(
    model="deepseek-reasoner", # 调用带思考过程的推理模型
    messages=[
        {"role": "system", "content": "你是一个资深的 Python 架构师。"},
        {"role": "user", "content": "请解释一下什么是协程?"}
    ]
)

# 打印回复
print(response.choices[0].message.content)

仅仅十几行代码,你就可以把顶级大模型的智力接入到你自己的系统、微信机器人或者数据处理脚本中。

三、 实战2:Ollama 本地私有化部署

如果你公司的数据极其敏感,不允许上传给第三方接口,那么本地部署开源模型是唯一选择。Ollama 是目前最好用的本地 LLM 运行与管理工具。

1. 安装 Ollama: 访问 Ollama 官网 下载对应系统(Windows/Mac/Linux)的安装包并傻瓜式安装。

2. 一键拉取并运行模型: 以拉取表现惊艳的 DeepSeek-R1(1.5B 蒸馏版,普通轻薄本即可流畅运行)为例。打开命令行,输入:

复制代码
ollama run deepseek-r1:1.5b

Ollama 会自动下载权重并加载到内存/显存中。下载完成后,直接在终端就能和它对话了!

3. API 调用本地模型: Ollama 默认会在本地 11434 端口提供兼容 API。你的代码可以无缝切换为本地模型:

复制代码
import requests
import json

url = "[http://127.0.0.1:11434/api/chat](http://127.0.0.1:11434/api/chat)"
payload = {
    "model": "deepseek-r1:1.5b",
    "messages": [
        {"role": "user", "content": "写一个计算斐波那契数列的函数"}
    ],
    "stream": False
}
response = requests.post(url, json=payload)
print(response.json()["message"]["content"])

四、进阶:什么是 Embedding 与 RAG?

当你遇到这个问题:"我想让大模型基于我们公司长达 500 页的《员工手册》来回答问题",你该怎么办?

  • 直接发给 API?上下文长度受限,且每次都要消耗巨大的 Token 成本。

  • 微调模型?成本高昂,且微调主要为了改风格,不适合用来注入具体的实时知识。

黄金解法是:RAG(Retrieval-Augmented Generation,检索增强生成) 。而 RAG 的核心基石,就是 Embedding 模型

1. 什么是 Embedding 模型?

大模型是生成 文字的,而 Embedding 模型是表示 文字的。 它把一段文字翻译成一段"由数百个浮点数组成的数组"(称为向量)。 "电脑充不进电" -> [0.12, -0.55, 0.89, ...]

向量的魔法在于:**语义相近的文字,它们在数学空间里的距离非常近。**即使文字完全不同(比如"电池坏了"和"无法开机"),它们的向量距离也很近。

2. RAG 的标准工作流

  1. 知识切片与向量化: 把《员工手册》切成一段段小文本,用 Embedding 模型变成几千个向量,存入向量数据库(如 Milvus、Chroma)。

  2. 检索(Retrieval): 员工提问"年假怎么算?",先把提问也 Embedding 成向量,去数据库里做数学距离比对,瞬间找出最相关的 3 段条款文本。

  3. 增强生成(Generation): 把找出来的 3 段条款,连同员工的问题,组合成提示词发给 LLM:"请基于以下提供的公司条款,回答员工的年假问题。条款:[此处贴上检索出的文本]"。

通过 Embedding 和 RAG,大模型不再是仅仅凭借远古训练数据"背书"的文科生,而是变成了开卷考试、字斟句酌的企业业务专家!

总结: 掌握 API 接入让你具备整合 AI 能力的筹码;掌握 Ollama 让你实现了 AI 自由;掌握 Embedding 和 RAG,则让你真正拿到了开发企业级 AI 商业落地的钥匙。从原理、Prompt 到工程实践,这就是大语言模型应用开发的全景图。

相关推荐
恋猫de小郭2 小时前
Copilot 下架 opus ,Qwen 开始按量计费,GLM 限制非代码使用,Token都在涨价,人还比 Token 便宜吗?
前端·人工智能·ai编程
橘子编程2 小时前
PyTorch深度学习全栈指南
人工智能·pytorch·深度学习
慧一居士2 小时前
One API 高可用部署及负载配置完整使用步骤
人工智能
哈伦20192 小时前
第七章 回归案例(二)美国爱荷华州埃姆斯地区房价预测
人工智能·数据挖掘·回归
xiaotao1312 小时前
03-深度学习基础:训练技巧
人工智能·深度学习·训练
2501_933329552 小时前
品牌公关实战:Infoseek数字公关AI中台技术架构与舆情处置全流程解析
人工智能·自然语言处理·架构·数据库开发
这儿有一堆花2 小时前
终端AI编程助手CLI工具:Claude Code 的同类选择
人工智能·chatgpt·ai编程
byte轻骑兵2 小时前
【LE Audio】BASS精讲[1]: 核心缩写词拆解,从基础到实战的协议通用语言
人工智能·语音识别·蓝牙·le audio·低功耗音频
emfuture2 小时前
行业观察 | 实时工业控制垂类大模型研发获立项,将探索工业智能新路径
人工智能