大模型接入指南：API、本地部署与 SDK 三种接入

文章目录

- LLM的接入方式
- - [1. API接入](#1. API接入)
  - [2. 本地接入](#2. 本地接入)
  - - [> 下载并安装Ollama](#> 下载并安装Ollama)
    - [> 拉取模型](#> 拉取模型)
    - [> 测试](#> 测试)
  - [3. SDK接入](#3. SDK接入)
  - [4. 问题与思考](#4. 问题与思考)

LLM的接入方式

如果需要自己写一个AI应用来实现相关AI行为，则需要自行接入LLM。

常见的原生LLM（不经过第三方平台或复杂的代理层，直接与大语言模型提供方进行交互的方法）接入方式有三种：【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】

1. API接入

这是目前最主流、最便捷的接入方式，尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。

通过HTTP请求（通常是RESTful API）直接调用模型提供商部署在云端的模型服务。代表厂商：OpenAI（GPT-4o）、Anthropic（Claude）、Google（Gemini）、百度文心一言、阿里通义千问、智谱AI等。

典型流程就是：

注册账号并获取API Key：在模型提供商的平台上注册，获得用于身份验证的密钥。
查阅API文档：了解请求的端点、参数（如模型名称、提示词、温度、最大生成长度等）和返回的数据格式。
构建HTTP请求：在你的代码中，使用HTTP客户端库（如Python的requests）构建一个包含API Key（通常在Header中）和请求体（JSON格式，包含你的提示和参数）的请求。
发送请求并处理响应：将请求发送到提供商指定的API地址，然后解析返回的JSON数据，提取生成的文本。

以deepseek为例，官网地址：https://platform.deepseek.com/usage

点击创建API Key，创建完成后保存API Key。

调用：

bash 复制代码

curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
  -d '{
        "model": "deepseek-v4-pro",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "Hello!"}
        ],
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
        "stream": false
      }'

使用 Postman 或者Apifox等客户端发起调用

2. 本地接入

大模型本地部署，这种方式就是将开源的大型语言模型（如Llama、ChatGLM、Qwen等）部署在你自己的硬件环境（本地服务器或私有云）中。核心概念就是，将下载模型的文件（权重和配置文件），使用专门的推理框架在本地服务器或GPU上加载并运行模型，然后通过类似API的方式进行交互。

典型流程是：

获取模型：从Hugging Face（国外）、魔搭社区（国内）等平台下载开源模型的权重。
准备环境：配置具有足够显存（如NVIDIA GPU）的服务器，安装必要的驱动和推理框架。
选择推理框架：使用专为生产环境设计的框架来部署模型，例如：

vLLM：特别注重高吞吐量的推理服务，性能极佳。
TGI：Hugging Face推出的推理框架，功能全面。
Ollama：非常用户友好，可以一键拉取和运行模型，适合快速入门和本地开发。
LM Studio：提供图形化界面，让本地运行模型像使用软件一样简单。

启动服务并调用：框架会启动一个本地API服务器（如http://localhost:8000），你可以像调用云端API一样向这个本地地址发送请求。

> 下载并安装Ollama

Ollama是一款专为本地部署和运行大型语言模型（LLM）设计的开源工具，旨在简化大型语言模型（LLM）的安装、运行和管理。它支持多种开源模型（如qwen、deepseek、LLaMA），并提供简单的API接口，方便开发者调用，适合开发者和企业快速搭建私有化AI服务。

Ollama官网：https://ollama.ai

> 拉取模型

Ollama可以管理和部署模型，我们使用之前，需要先拉取模型。

修改模型存储路径

模型默认安装在C盘个人目录下C:\Users\XXX.ollama，可以修改ollama的模型存储路径，使得每次下载的模型都在指定的目录下。有以下两种方式：

配置系统环境变量
变量名：OLLAMA_MODELS
变量值：${自定义路径}
通过Ollama界面来进行设置
设置完成后，重启Ollama。

> 测试

模型拉取之后，可以通过命令行和AI模型对话。

3. SDK接入

这并非一种独立的接入方式，而是对第一种API接入的封装和简化。模型提供商通常会发布官方编程语言SDK，为我们封装好了底层的HTTP请求细节，提供一个更符合编程习惯的、语言特定的函数库。

典型流程（以OpenAI Python SDK为例）：

安装库：pip install openai

安装OpenAI SDK后，可以创建一个名为example.py的文件并将示例代码复制到其中。

python 复制代码

from openai import OpenAI
client = OpenAI(api_key="your-api-key")

response = client.responses.create(
	model="gpt-5",
	input="介绍⼀下你⾃⼰。"
)
print(response.output_text)

相比直接构造HTTP请求，代码更简洁、更易读、更易维护。

4. 问题与思考

对于以上三种接入方式，我们该如何选择？

看数据敏感性：如果数据极其敏感，必须留在内部，本地部署是唯一选择。
看技术实力和资源：如果团队没有强大的MLops（机器学习运维）能力，也没有预算购买和维护GPU服务器，云端API是更实际的选择。
看成本和规模：如果应用规模很大，长期来看，本地部署的固定成本可能低于持续的API调用费用。反之，小规模应用API更划算。
看定制需求：如果只是使用模型的通用能力，云端API足够。如果需要用自己的数据微调模型，则需要选择支持微调的API或直接本地部署。

实际上，只要是原生LLM，无论怎么接入都有限制。为什么？

输入长度限制：所有LLM都有固定的输入长度（如4K、8K、128K、400K Token）。我们无法将一本几百页的PDF或整个公司知识库直接塞给模型。
缺乏私有知识：模型的训练数据有截止日期，且不包含我们的私人数据（如公司内部文档、个人笔记等）。让它基于这些知识回答问题，非常困难。
复杂任务处理能力弱：原生API本质是一个"一问一答"的接口。对于需要多个步骤的复杂任务（如"分析这份财报，总结要点，并生成一份PPT大纲"），我们需要自己编写复杂的逻辑来拆解任务、多次调用API并管理中间状态。
输出格式不可控：虽然可以通过提示词要求模型输出JSON或特定格式，但它仍可能产生格式错误或不合规的内容，需要我们自己编写后处理代码来校验和清洗。

像LangChain这样的框架，正是为了系统性地解决这些问题而诞生的。