LangChain框架--LLM接入方式

前面我们演示的都是通过现成的客户端，来进行AI行为，如聊天、生图等。如果现在要我们自己写一个AI应用来实现相关AI行为，则需要我们自行接入LLM。

常见的原生 LLM 接入方式有三种：【API远程调用】、【开源模型本地部署】和【SDK和官方客户端库】。

一、API接入

这是目前最主流、最便捷的接入方式，尤其适用于快速开发、集成到现有应用以及不想管理硬件资源的场景。

通过 HTTP 请求（通常是RESTful API）直接调用模型提供商部署在云端的模型服务。

典型流程就是：

**1.注册账号并获取API Key：**再模型提供商的平台上注册，获取用于身份验证的密钥。

**2.查阅API文档：**了解请求的端点、参数（如模型名称、提示词、温度、最大生成长度等）和返回的数据格式。

**3.构建 HTTP 请求：**在你的代码中，使用HTTP客户端库（如Python的requests）构建一个包含API Key （通常在Header中）和请求体（Json格式，包含你的提示和参数）的请求。

**4.发送请求并处理响应：**将请求发送到提供商指定的API地址，然后解析返回的Json数据，提取生成的文本。

以OpenAI为例，官⽹地址：https://platform.openai.com/（魔法上网）

接入流程参考：https://platform.openai.com/docs/quickstart

API参考：https://platform.openai.com/docs/api-reference/introduction

二、本地接入

大模型本地部署，这种方式就是将开源的大型语言模型（如Llama，CharGLM，Qwen 等）部署在你自己的硬件环境（本地服务器或私有云等）中，核心概念就是，将下载模型的文件（权重和配置文件），使用专门的推理框架在本地服务器或GPU上加载并运行模型，然后通过类似API的方式进行交互。

典型流程就是：

**1. 获取模型：**从Hugging Face（国外）、魔塔社区（国内）等平台下载开源模型的权重。

**2. 准备环境：**配置具有足够显存（如NVIDIV GPU）的服务器，安装必要的驱动和推理框架。

**3. 选择推理框架：**选择专为生产环境设计的框架来部署模型，例如：

vLLM：特别注重高吞吐量的推理服务，性能极佳。

TGI：Hugging Face 推出的推理框架，功能全面。

Ollama：非常用户友好，可以一键拉取和运行模型，适合快速入门和本地开发。

LM Studio：提供图形化界面，让本地运行模型像使用软件一样简单。

**4. 启动服务并调用：**框架会启动一个本地 API 服务器（如 http://localhost:8000），你可以像调用云端 API 一样向这个本地地址发送请求。

以 Ollama 为例，下面我们来演示下具体过程。

2.1 下载并安装Ollama

Ollama 是一款专为本地部署和运行大型语言模型（LLM）设计的开源工具，旨在简化大型语言模型（LLM）的安装、运行和管理。它支持多种开源模型（如Qwen、deepseek、LLaMA），并提供简单的 API 接口，方便开发者调用，适合开发者和企业快速搭建私有化 AI 服务。

Ollama官网:https://ollama.ai

下载之后一步步安装即可。

安装之后，Ollama 默认会启动。访问 http://127.0.0.1:11434

或者使用 cmd 访问 ollama --version

Ollama 可以管理和部署模型，我们使用之前，需要先拉取模型

2.2 修改模型存储路径

模型默认安装在C盘个人目录下 C:\Users\xxx\.ollama, 可以修改 ollama 的模型存储路径，使得每次下载的模型都在指定的目录下。有这两种方式：

配置系统环境变量

变量名: OLLAMA_MODELS
变量值: ${⾃定义路径}
通过 Ollama 界面来进行设置

设置完成后重启Ollama。

2.3 拉取模型

查找模型:https://ollama.com/search

以 DeepSeek-R1为例，DeepSeek-R1 是一系列开放推理模型，其性能接近 O3 和 Gemini 2.5 Pro等领先模型。DeepSeek-R1 有不同的版本，我们需要根据自己机器的配置以及需求来选择相应的版本。

分为 1.5b， 7b，8b 等，"b" 是"Billion"（十亿）的缩写，代表模型的参数量级。671b 表示"满血"版本，其他版本称为 "蒸馏" 版本。

参数越多 -> 模型"知识量越大" -> 处理复杂任务的能力越强，硬件需求也越高。

根据需求及电脑配置，选择合适的模型版本，以 1.5b 为例：

复制代码

ollama run deepseek-r1:1.5b

第一次使用需要下载，下载完成之后就可以通过命令行进行 AI 对话。

三、SDK接入

这并非一种独立的接入方式，而是对第一种 API 接入的封装和简化。模型提供商通常会发布官方编程语言 SDK，为我们封装好了底层的 HTTP 请求细节，提供一个更符合编程习惯的、语言特定的函数库。

典型流程（以 OpenAI Python SDK 为例）：

安装库：

复制代码

pip install openai

安装 OpenAI SDK 后，可以创建一个名为 example.py 的文件并将示例代码复制到其中：

python 复制代码

from openai import OpenAI
client = OpenAI(api_key="your-api-key")
response = client.responses.create(
    model="gpt-5",
    input="介绍⼀下你⾃⼰。"
) 
print(response.output_text)

相比直接构造 HTTP 请求，代码更简洁、更易读、更易维护。