【AI大模型入门(三)】大模型API接入、Ollama本地部署、SDK接入

上篇文章:【AI大模型入门(二)】提示词工程进阶

目录

[1.AI 接入方式选型:云端 vs 本地](#1.AI 接入方式选型:云端 vs 本地 "1.AI 接入方式选型:云端 vs 本地")

[2.API 接入](#2.API 接入 "2.API 接入")

3.本地私有化部署

3.1下载并安装Ollama

3.2一键拉取并运行模型

修改模型存储路径

拉取模型

4.SDK接入

5.问题与思考


导语: 作为开发者,光会在网页端和 AI 聊天是不够的。我们需要让 AI 融入到我们的业务流、脚本和后端服务中。本文将带你实战大模型接入的三种核心方式:API 远程调用、开源模型本地部署和SDK与官方客户端库。

1.AI 接入方式选型:云端 vs 本地

我们要将大模型能力接入自己的应用,通常面临两个选择:

  1. API 接入(闭源/商业大模型):

    1. 优势: 速度快、无需关心硬件(不用买显卡)、模型智商通常最高(如 GPT-5、Claude 3.7)。

    2. 劣势: 数据需出境/上云(有隐私合规风险),按 Token 消耗计费。

  2. 本地部署(开源大模型):

    • 优势: 绝对的数据隐私,断网可用,一次性硬件投资后无限次使用。

    • 劣势: 需要高性能 GPU,运维成本高,模型能力受限于本地算力(通常使用蒸馏版本如 8B、14B 级别模型)。

2.API 接入

这是目前最主流,最便捷的接⼊⽅式,尤其适用于快速开发、集成到现有应⽤以及不想管理硬件资源的场景。

通过 HTTP 请求(通常是 RESTful API)直接调用模型提供商部署在云端的模型服务。代表厂商:OpenAI (GPT),Anthropic (Claude),Google (Gemini),百度文心⼀⾔,阿⾥通义千问,智谱 AI等。

典型流程就是:

  1. 注册账号并获取API Key:在模型提供商的平台上注册,获得身份验证的密钥。
  2. 查阅API文档:了解请求的端点、参数(如模型名称,提示词,温度,最大生成长度等)和返回的数据格式。
  3. 构建HTTP请求:在你的代码中,使用HTTP客户端库(如Python的request)构建一个包含API Key(通常在Header中)和请求体(JSON格式,包含你的提示和参数)的请求。
  4. 发送请求并处理响应:将请求发送到提供商指定的API地址,然后解析返回的JSON数据,提取生成的文本。

以OpenAI为例,官网:https://platform.openai.com/home

接入流程文档:https://developers.openai.com/api/docs/quickstart

调用:

复制代码
curl "https://api.openai.com/v1/responses" \
     -H "Content-Type: application/json" \
     -H "Authorization: Bearer $OPENAI_API_KEY" \
     -d '{
         "model": "gpt-5",
         "input": "Write a one-sentence bedtime story about a unicorn."
 }'

或者使用HTTP客户端,此处以Apifox(Apifox官网

为例:

API参考:https://developers.openai.com/api/reference/overview

3.本地私有化部署

大模型本地部署,这种方式就是将开源的大型语言模型(如:qwen,kimi,Gemma等)部署在自己的硬件环境(本地服务器或私有云)中。核心概念就是,将下载模型的文件(权重或配置文件),使用专门的推理框架在本地服务器或GPU上加载并运行模型,然后通过类似API的方式进行交互。

如果你公司的数据极其敏感,不允许上传给第三方接口,那么本地部署开源模型是唯一选择。

流程是:

  1. 获取模型:从 Hugging Face(国外)、魔搭社区(国内)等平台下载开源模型的权重
  2. 准备环境:配置具有⾜够显存(如 NVIDIA GPU)的服务器,安装必要的驱动和推理框架
  3. 选择推理框架:使用专为⽣产环境设计的框架来部署模型,例如

vLLM:特别注重⾼吞吐量的推理服务,性能极佳。

TGI:Hugging Face 推出的推理框架,功能全⾯。

Ollama:⾮常用户友好,可以⼀键拉取和运⾏模型,适合快速入门和本地开发。

LM Studio:提供图形化界⾯,让本地运⾏模型像使⽤软件⼀样简单。

  1. 启动服务并调⽤:框架会启动⼀个本地 API 服务器(如 http://localhost:8000 ),你可以像调⽤云端 API ⼀样向这个本地地址发送请求。

Ollama 是目前最好用的本地 LLM 运行与管理工具。

3.1下载并安装Ollama

安装 Ollama: 访问 Ollama 官网 下载对应系统(Windows/Mac/Linux)的安装包并傻瓜式安装。

验证: 安装完成后,Ollama默认会启动,访问:http://127.0.0.1:11434/

或者使用cmd访问:

3.2一键拉取并运行模型

Ollama可以管理和部署模型,我们使用之前要先拉取模型。

修改模型存储路径

1.配置系统环境变量:

复制代码
变量名: OLLAMA_MODELS
变量值: ${⾃定义路径}

2.通过Ollama界面来进行设置

设置完成后,重启Ollama。

拉取模型

查找模型:https://ollama.com/search

以拉取表现惊艳的qwen3.6:35b为例。

这后面的数组是参数大小,参数越大,能力越强。

  • 35b: 350 亿参数。

  • q4_K_M: 代表使用了 4-bit 的中等(Medium)量化技术。就像把一张 4K 的高清原图稍微压缩了一下,肉眼看不出画质损失,但文件体积直接缩小了三分之二。

打开命令行,输入:

复制代码
ollama run qwen3.6:35b

Ollama 会自动下载权重并加载到内存/显存中。下载完成后,直接在终端就能和它对话了!

API 调用本地模型: Ollama 默认会在本地 11434 端口提供兼容 API。你的代码可以无缝切换为本地模型:

复制代码
curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.6",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

4.SDK接入

这并非⼀种独立的接⼊⽅式,而是对第⼀种 API 接⼊的封装和简化。模型提供商通常会发布官方编程语⾔SDK,为我们封装好了底层的 HTTP 请求细节,提供⼀个更符合编程习惯的、语⾔特定的函数库。

目前业界大多遵循了 OpenAI 的接口规范格式(包括 DeepSeek、Qwen 很多接口也完全兼容)使用官方 Python SDK 调用极其简单。

1. 安装依赖:

复制代码
pip install openai

2. 在PyCharm中创建一个.py文件

复制代码
from openai import OpenAI

# 很多国内大模型也兼容这套 API,只需替换 base_url 和 api_key
client = OpenAI(
    api_key="your-api-key",
    base_url="[https://api.deepseek.com/v1](https://api.deepseek.com/v1)" # 假设使用 DeepSeek 的 API
)

response = client.chat.completions.create(
    model="deepseek-reasoner", # 调用带思考过程的推理模型
    messages=[
        {"role": "system", "content": "你是一个资深的 Python 架构师。"},
        {"role": "user", "content": "请解释一下什么是协程?"}
    ]
)

# 打印回复
print(response.choices[0].message.content)

仅仅十几行代码,你就可以把顶级大模型的智力接入到你自己的系统、微信机器人或者数据处理脚本中。

5.问题与思考

对于以上三种接入方式,我们该如何选择?

**看数据敏感性:**如果数据极其敏感,必须留在内部,本地部署是唯⼀选择。

**看技术实力和资源:**如果团队没有强⼤的 MLops(机器学习运维)能⼒,也没有预算购买和维护

GPU 服务器,云端 API 是更实际的选择。

**看成本和规模:**如果应用规模很大,长期来看,本地部署的固定成本可能低于持续的 API 调⽤费

⽤。反之,⼩规模应⽤ API 更划算。

**看定制需求:**如果只是使⽤模型的通⽤能⼒,云端 API ⾜够。如果需要用自己的数据微调模型,则 需要选择⽀持微调的 API 或直接本地部署。

实际上,只要是原生LLM,⽆论怎么接⼊都有限制。

  • 输⼊⻓度限制:所有 LLM 都有固定的输⼊⻓度(如4K、8K、128K、400K Token)。我们⽆法将⼀本⼏百⻚的 PDF 或整个公司知识库直接塞给模型
  • 缺乏私有知识:模型的训练数据有截⽌日期,且不包含我们的私⼈数据(如公司内部⽂档、个⼈笔记等)。让它基于这些知识回答问题,⾮常困难。
  • 复杂任务处理能⼒弱:原⽣ API 本质是⼀个"⼀问⼀答"的接口。对于需要多个步骤的复杂任务(如"分析这份财报,总结要点,并⽣成⼀份PPT⼤纲"),我们需要⾃⼰编写复杂的逻辑来拆解任务、多次调⽤ API 并管理中间状态。
  • 输出格式不可控:虽然可以通过提⽰词要求模型输出 JSON 或特定格式,但它仍可能产⽣格式错误或不合规的内容,需要我们⾃⼰编写后处理代码来校验和清洗。

像 LangChain 这样的框架,正是为了系统性地解决这些问题⽽诞⽣的。

相关推荐
阿杰学AI2 小时前
AI核心知识133—大语言模型之 AI Coding(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·ai编程·ai coding
朱阿朱2 小时前
机器学习数学基础
人工智能·机器学习·概率论·高数
中电金信2 小时前
中电金信:赋能精准决策,两大场景解锁金融营销新范式
大数据·人工智能
liangdabiao2 小时前
定制的乐高马赛克像素画生成器-微信小程序版本-AI 风格优化-一键完成所有工作
人工智能·微信小程序·小程序
醉卧考场君莫笑2 小时前
NLP(jieba库实现分词以及代码实现)
人工智能·自然语言处理
虹科网络安全2 小时前
艾体宝洞察|生成式 AI 安全:趋势、风险与最佳实践
人工智能·安全
坏小虎2 小时前
A2A、AG UI、SSE、WebSockets 协议对比与关系解析
ai
weixin_6682 小时前
云计算与大模型私有化部署详解
人工智能·云计算
艾莉丝努力练剑2 小时前
【Linux线程】Linux系统多线程(十):线程安全和重入、死锁相关话题
java·linux·运维·服务器·c++·学习·安全