大模型接入指南:API、本地部署与 SDK 三种接入

文章目录

    • LLM的接入方式
      • [1. API接入](#1. API接入)
      • [2. 本地接入](#2. 本地接入)
        • [> 下载并安装Ollama](#> 下载并安装Ollama)
        • [> 拉取模型](#> 拉取模型)
        • [> 测试](#> 测试)
      • [3. SDK接入](#3. SDK接入)
      • [4. 问题与思考](#4. 问题与思考)

LLM的接入方式

如果需要自己写一个AI应用来实现相关AI行为,则需要自行接入LLM。

常见的原生LLM(不经过第三方平台或复杂的代理层,直接与大语言模型提供方进行交互的方法)接入方式有三种:【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】

1. API接入

这是目前最主流、最便捷的接入方式,尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。

通过HTTP请求(通常是RESTful API)直接调用模型提供商部署在云端的模型服务。代表厂商:OpenAI(GPT-4o)、Anthropic(Claude)、Google(Gemini)、百度文心一言、阿里通义千问、智谱AI等。

典型流程就是:

  1. 注册账号并获取API Key:在模型提供商的平台上注册,获得用于身份验证的密钥。
  2. 查阅API文档:了解请求的端点、参数(如模型名称、提示词、温度、最大生成长度等)和返回的数据格式。
  3. 构建HTTP请求:在你的代码中,使用HTTP客户端库(如Python的requests)构建一个包含API Key(通常在Header中)和请求体(JSON格式,包含你的提示和参数)的请求。
  4. 发送请求并处理响应:将请求发送到提供商指定的API地址,然后解析返回的JSON数据,提取生成的文本。

以deepseek为例,官网地址:https://platform.deepseek.com/usage

点击创建API Key,创建完成后保存API Key。

调用:

bash 复制代码
curl https://api.deepseek.com/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer ${DEEPSEEK_API_KEY}" \
  -d '{
        "model": "deepseek-v4-pro",
        "messages": [
          {"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "Hello!"}
        ],
        "thinking": {"type": "enabled"},
        "reasoning_effort": "high",
        "stream": false
      }'

使用 Postman 或者Apifox等客户端发起调用

2. 本地接入

大模型本地部署,这种方式就是将开源的大型语言模型(如Llama、ChatGLM、Qwen等)部署在你自己的硬件环境(本地服务器或私有云)中。核心概念就是,将下载模型的文件(权重和配置文件),使用专门的推理框架在本地服务器或GPU上加载并运行模型,然后通过类似API的方式进行交互。

典型流程是:

  1. 获取模型:从Hugging Face(国外)、魔搭社区(国内)等平台下载开源模型的权重。
  2. 准备环境:配置具有足够显存(如NVIDIA GPU)的服务器,安装必要的驱动和推理框架。
  3. 选择推理框架:使用专为生产环境设计的框架来部署模型,例如:
  • vLLM:特别注重高吞吐量的推理服务,性能极佳。
  • TGI:Hugging Face推出的推理框架,功能全面。
  • Ollama:非常用户友好,可以一键拉取和运行模型,适合快速入门和本地开发。
  • LM Studio:提供图形化界面,让本地运行模型像使用软件一样简单。
  1. 启动服务并调用:框架会启动一个本地API服务器(如http://localhost:8000),你可以像调用云端API一样向这个本地地址发送请求。
> 下载并安装Ollama

Ollama是一款专为本地部署和运行大型语言模型(LLM)设计的开源工具,旨在简化大型语言模型(LLM)的安装、运行和管理。它支持多种开源模型(如qwen、deepseek、LLaMA),并提供简单的API接口,方便开发者调用,适合开发者和企业快速搭建私有化AI服务。

Ollama官网:https://ollama.ai

> 拉取模型

Ollama可以管理和部署模型,我们使用之前,需要先拉取模型。

修改模型存储路径

模型默认安装在C盘个人目录下C:\Users\XXX.ollama,可以修改ollama的模型存储路径,使得每次下载的模型都在指定的目录下。有以下两种方式:

  1. 配置系统环境变量
    变量名:OLLAMA_MODELS
    变量值:${自定义路径}
  2. 通过Ollama界面来进行设置
    设置完成后,重启Ollama。
> 测试

模型拉取之后,可以通过命令行和AI模型对话。

3. SDK接入

这并非一种独立的接入方式,而是对第一种API接入的封装和简化。模型提供商通常会发布官方编程语言SDK,为我们封装好了底层的HTTP请求细节,提供一个更符合编程习惯的、语言特定的函数库。

典型流程(以OpenAI Python SDK为例):

安装库:pip install openai

安装OpenAI SDK后,可以创建一个名为example.py的文件并将示例代码复制到其中。

python 复制代码
from openai import OpenAI
client = OpenAI(api_key="your-api-key")

response = client.responses.create(
	model="gpt-5",
	input="介绍⼀下你⾃⼰。"
)
print(response.output_text)

相比直接构造HTTP请求,代码更简洁、更易读、更易维护。

4. 问题与思考

对于以上三种接入方式,我们该如何选择?

  • 看数据敏感性:如果数据极其敏感,必须留在内部,本地部署是唯一选择。
  • 看技术实力和资源:如果团队没有强大的MLops(机器学习运维)能力,也没有预算购买和维护GPU服务器,云端API是更实际的选择。
  • 看成本和规模:如果应用规模很大,长期来看,本地部署的固定成本可能低于持续的API调用费用。反之,小规模应用API更划算。
  • 看定制需求:如果只是使用模型的通用能力,云端API足够。如果需要用自己的数据微调模型,则需要选择支持微调的API或直接本地部署。

实际上,只要是原生LLM,无论怎么接入都有限制。为什么?

  1. 输入长度限制:所有LLM都有固定的输入长度(如4K、8K、128K、400K Token)。我们无法将一本几百页的PDF或整个公司知识库直接塞给模型。
  2. 缺乏私有知识:模型的训练数据有截止日期,且不包含我们的私人数据(如公司内部文档、个人笔记等)。让它基于这些知识回答问题,非常困难。
  3. 复杂任务处理能力弱:原生API本质是一个"一问一答"的接口。对于需要多个步骤的复杂任务(如"分析这份财报,总结要点,并生成一份PPT大纲"),我们需要自己编写复杂的逻辑来拆解任务、多次调用API并管理中间状态。
  4. 输出格式不可控:虽然可以通过提示词要求模型输出JSON或特定格式,但它仍可能产生格式错误或不合规的内容,需要我们自己编写后处理代码来校验和清洗。

像LangChain这样的框架,正是为了系统性地解决这些问题而诞生的。

相关推荐
qcx233 小时前
【AI Agent通识九课】02 · Agent 的“思考回路“长啥样?
人工智能·ai·llm·agent
翔云1234564 小时前
端侧推理:全面解析与深度洞察
人工智能·ai·大模型
DogDaoDao6 小时前
【GitHub】andrej-karpathy-skills:让 AI 编程助手告别三大通病
人工智能·深度学习·程序员·大模型·github·ai编程·andrej-karpathy
程序员小崔日记9 小时前
DeepSeek V4,我在做项目和写软著材料时,顺手用了一段时间
大模型·web开发·deepseek
CoderJia程序员甲10 小时前
GitHub 热榜项目 - 日榜(2026-05-03)
ai·大模型·llm·github·ai教程
knight_9___12 小时前
LLM工具调用面试篇5
人工智能·python·深度学习·面试·职场和发展·llm·agent
feasibility.12 小时前
量化:LLM与CV模型的极致压缩艺术
人工智能·科技·llm·边缘计算·量化·cv·压缩
树獭非懒12 小时前
LangChain 不是框架,而是一把瑞士军刀
人工智能·程序员·llm
guslegend14 小时前
第4节:应用架构与代码组织
人工智能·大模型·ai编程