本地部署:基于Ollama调用开源大模型
Ollama 是轻量级本地大模型运行框架,无需依赖云端服务,可快速部署通义千问、Llama 等开源大模型,特别适合无网络环境或隐私敏感场景。
步骤1:安装Ollama
从官方网站下载并安装:ollama.com/
步骤2:拉取并运行大模型(以通义千问3-vl 2B为例)
bash
# 拉取并运行模型(首次执行会自动下载模型文件)
ollama run qwen3-vl:2b
# 查看本地已下载的所有大模型
ollama ls
关键提示 :首次运行需保持网络通畅,下载耗时取决于模型大小和网络速度;
2b代表模型参数量(20亿参数),参数量越小,对本地硬件(内存、显卡)的要求越低,运行速度也越快。
步骤3:用LangChain调用Ollama
python
# 安装LangChain对接Ollama的依赖包
pip install langchain-ollama
from langchain_ollama.chat_models import ChatOllama
# 初始化模型(模型名称需与本地运行的模型一致)
llm = ChatOllama(model="qwen3:0.6b")
# 调用模型并打印结果
output = llm.invoke("你好,请介绍一下自己")
print(output.content)
前置条件 :运行上述代码前,需确保 Ollama 服务已启动(可通过终端执行
ollama run 模型名启动对应模型服务)。
二、云端调用:阿里百炼大模型(通义千问)
阿里百炼是阿里云推出的企业级大模型服务平台,支持通过 OpenAI 兼容接口、LangChain 等方式调用通义千问系列模型,具备稳定算力、灵活扩展的优势,适合生产环境或强算力需求的场景。
步骤1:获取API Key(核心鉴权凭证)
- 登录阿里百炼控制台:bailian.console.aliyun.com/
- 完成实名认证后,在控制台的「API-KEY 管理」模块创建并获取 API Key(用于接口调用的身份鉴权)。
关键提示:API Key 属于敏感信息,需妥善保管,避免公开泄露(如提交至开源仓库、随意分享)。 调用前需确保阿里云账号有可用额度,否则会提示权限不足或额度耗尽。
步骤2:调用大模型(两种常用方式)
方式一:通过OpenAI SDK调用
python
# 安装OpenAI SDK依赖包
pip install openai
from openai import OpenAI
# 初始化客户端(配置阿里百炼的鉴权信息和兼容接口)
client = OpenAI(
# 替换为自己的API Key
api_key="你的阿里百炼API Key",
# 阿里百炼OpenAI兼容接口地址
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
# 调用模型生成回复
completion = client.chat.completions.create(
# 指定通义千问模型版本(如qwen-plus增强版、qwen-turbo轻量版)
model="qwen-plus",
messages=[
{"role": "system", "content": "你叫小Q,是一名专业的翻译助手"},
{"role": "user", "content": "你是谁?"},
],
)
# 打印模型回复内容
print(completion.choices[0].message.content)
方式二:通过LangChain调用
python
# 安装LangChain对接OpenAI的依赖包(适配阿里百炼兼容接口)
pip install langchain-openai
from langchain_openai import ChatOpenAI
# 初始化模型(适配阿里百炼接口)
llm = ChatOpenAI(
# 阿里百炼的通义千问模型名称
model_name="qwen-plus",
# 阿里百炼OpenAI兼容接口地址
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
# 替换为自己的API Key
api_key="你的阿里百炼API Key",
)
# 调用模型并打印结果
response = llm.invoke(
[
{"role": "system", "content": "你叫小Q,是一名专业的翻译助手"},
{"role": "user", "content": "你是谁?"},
],
)
print(response.content)
三、核心注意事项
- 大模型调用主要分为两种模式:同步调用 (一次性获取完整回复结果,适合简单问答)和 流式调用(逐字/逐段实时输出,贴近真实聊天体验,适合长文本生成场景)。
四、参考文档
- Ollama 官方大模型列表:ollama.com/search
- LangChain 对接 Ollama 官方文档:docs.langchain.com/oss/python/...
- 阿里百炼开放平台文档:bailian.console.aliyun.com/?tab=doc#/d...