上篇文章:【AI大模型入门(二)】提示词工程进阶
目录
[一、 AI 接入方式选型:云端 vs 本地](#一、 AI 接入方式选型:云端 vs 本地)
[二、 实战1:通过 API 接入(以 OpenAI/兼容协议为例)](#二、 实战1:通过 API 接入(以 OpenAI/兼容协议为例))
[三、 实战2:Ollama 本地私有化部署](#三、 实战2:Ollama 本地私有化部署)
[四、 进阶:什么是 Embedding 与 RAG?](#四、 进阶:什么是 Embedding 与 RAG?)
[1. 什么是 Embedding 模型?](#1. 什么是 Embedding 模型?)
[2. RAG 的标准工作流](#2. RAG 的标准工作流)
导语: 作为开发者,光会在网页端和 AI 聊天是不够的。我们需要让 AI 融入到我们的业务流、脚本和后端服务中。本文将带你实战大模型接入的三种核心方式:API 远程调用、Ollama 本地部署,并为你揭开企业私有知识库方案(RAG)背后的核心秘密------Embedding。
一、 AI 接入方式选型:云端 vs 本地
我们要将大模型能力接入自己的应用,通常面临两个选择:
-
API 接入(闭源/商业大模型): - 优势: 速度快、无需关心硬件(不用买显卡)、模型智商通常最高(如 GPT-5、Claude 3.7)。
- 劣势: 数据需出境/上云(有隐私合规风险),按 Token 消耗计费。
-
本地部署(开源大模型):
-
优势: 绝对的数据隐私,断网可用,一次性硬件投资后无限次使用。
-
劣势: 需要高性能 GPU,运维成本高,模型能力受限于本地算力(通常使用蒸馏版本如 8B、14B 级别模型)。
-
二、 实战1:通过 API 接入(以 OpenAI/兼容协议为例)
目前业界大多遵循了 OpenAI 的接口规范格式(包括 DeepSeek、Qwen 很多接口也完全兼容)。使用官方 Python SDK 调用极其简单。
1. 安装依赖:
pip install openai
2. 代码实战:
from openai import OpenAI
# 很多国内大模型也兼容这套 API,只需替换 base_url 和 api_key
client = OpenAI(
api_key="your-api-key",
base_url="[https://api.deepseek.com/v1](https://api.deepseek.com/v1)" # 假设使用 DeepSeek 的 API
)
response = client.chat.completions.create(
model="deepseek-reasoner", # 调用带思考过程的推理模型
messages=[
{"role": "system", "content": "你是一个资深的 Python 架构师。"},
{"role": "user", "content": "请解释一下什么是协程?"}
]
)
# 打印回复
print(response.choices[0].message.content)
仅仅十几行代码,你就可以把顶级大模型的智力接入到你自己的系统、微信机器人或者数据处理脚本中。
三、 实战2:Ollama 本地私有化部署
如果你公司的数据极其敏感,不允许上传给第三方接口,那么本地部署开源模型是唯一选择。Ollama 是目前最好用的本地 LLM 运行与管理工具。
1. 安装 Ollama: 访问 Ollama 官网 下载对应系统(Windows/Mac/Linux)的安装包并傻瓜式安装。
2. 一键拉取并运行模型: 以拉取表现惊艳的 DeepSeek-R1(1.5B 蒸馏版,普通轻薄本即可流畅运行)为例。打开命令行,输入:
ollama run deepseek-r1:1.5b
Ollama 会自动下载权重并加载到内存/显存中。下载完成后,直接在终端就能和它对话了!
3. API 调用本地模型: Ollama 默认会在本地 11434 端口提供兼容 API。你的代码可以无缝切换为本地模型:
import requests
import json
url = "[http://127.0.0.1:11434/api/chat](http://127.0.0.1:11434/api/chat)"
payload = {
"model": "deepseek-r1:1.5b",
"messages": [
{"role": "user", "content": "写一个计算斐波那契数列的函数"}
],
"stream": False
}
response = requests.post(url, json=payload)
print(response.json()["message"]["content"])
四、进阶:什么是 Embedding 与 RAG?
当你遇到这个问题:"我想让大模型基于我们公司长达 500 页的《员工手册》来回答问题",你该怎么办?
-
直接发给 API?上下文长度受限,且每次都要消耗巨大的 Token 成本。
-
微调模型?成本高昂,且微调主要为了改风格,不适合用来注入具体的实时知识。
黄金解法是:RAG(Retrieval-Augmented Generation,检索增强生成) 。而 RAG 的核心基石,就是 Embedding 模型。
1. 什么是 Embedding 模型?
大模型是生成 文字的,而 Embedding 模型是表示 文字的。 它把一段文字翻译成一段"由数百个浮点数组成的数组"(称为向量)。 "电脑充不进电" -> [0.12, -0.55, 0.89, ...]
向量的魔法在于:**语义相近的文字,它们在数学空间里的距离非常近。**即使文字完全不同(比如"电池坏了"和"无法开机"),它们的向量距离也很近。
2. RAG 的标准工作流
-
知识切片与向量化: 把《员工手册》切成一段段小文本,用 Embedding 模型变成几千个向量,存入向量数据库(如 Milvus、Chroma)。
-
检索(Retrieval): 员工提问"年假怎么算?",先把提问也 Embedding 成向量,去数据库里做数学距离比对,瞬间找出最相关的 3 段条款文本。
-
增强生成(Generation): 把找出来的 3 段条款,连同员工的问题,组合成提示词发给 LLM:"请基于以下提供的公司条款,回答员工的年假问题。条款:[此处贴上检索出的文本]"。
通过 Embedding 和 RAG,大模型不再是仅仅凭借远古训练数据"背书"的文科生,而是变成了开卷考试、字斟句酌的企业业务专家!
总结: 掌握 API 接入让你具备整合 AI 能力的筹码;掌握 Ollama 让你实现了 AI 自由;掌握 Embedding 和 RAG,则让你真正拿到了开发企业级 AI 商业落地的钥匙。从原理、Prompt 到工程实践,这就是大语言模型应用开发的全景图。