【前端学习AI】大模型调用实战

本地部署：基于Ollama调用开源大模型

Ollama 是轻量级本地大模型运行框架，无需依赖云端服务，可快速部署通义千问、Llama 等开源大模型，特别适合无网络环境或隐私敏感场景。

步骤1：安装Ollama

从官方网站下载并安装：ollama.com/

步骤2：拉取并运行大模型（以通义千问3-vl 2B为例）

bash 复制代码

# 拉取并运行模型（首次执行会自动下载模型文件）
ollama run qwen3-vl:2b

# 查看本地已下载的所有大模型
ollama ls

关键提示 ：首次运行需保持网络通畅，下载耗时取决于模型大小和网络速度；2b 代表模型参数量（20亿参数），参数量越小，对本地硬件（内存、显卡）的要求越低，运行速度也越快。

步骤3：用LangChain调用Ollama

python 复制代码

# 安装LangChain对接Ollama的依赖包
pip install langchain-ollama
from langchain_ollama.chat_models import ChatOllama

# 初始化模型（模型名称需与本地运行的模型一致）
llm = ChatOllama(model="qwen3:0.6b")
# 调用模型并打印结果
output = llm.invoke("你好，请介绍一下自己")
print(output.content)

前置条件 ：运行上述代码前，需确保 Ollama 服务已启动（可通过终端执行 ollama run 模型名 启动对应模型服务）。

二、云端调用：阿里百炼大模型（通义千问）

阿里百炼是阿里云推出的企业级大模型服务平台，支持通过 OpenAI 兼容接口、LangChain 等方式调用通义千问系列模型，具备稳定算力、灵活扩展的优势，适合生产环境或强算力需求的场景。

步骤1：获取API Key（核心鉴权凭证）

登录阿里百炼控制台：bailian.console.aliyun.com/
完成实名认证后，在控制台的「API-KEY 管理」模块创建并获取 API Key（用于接口调用的身份鉴权）。

关键提示：API Key 属于敏感信息，需妥善保管，避免公开泄露（如提交至开源仓库、随意分享）。调用前需确保阿里云账号有可用额度，否则会提示权限不足或额度耗尽。

步骤2：调用大模型（两种常用方式）

方式一：通过OpenAI SDK调用

python 复制代码

# 安装OpenAI SDK依赖包
pip install openai
from openai import OpenAI

# 初始化客户端（配置阿里百炼的鉴权信息和兼容接口）
client = OpenAI(
	# 替换为自己的API Key
    api_key="你的阿里百炼API Key",  
    # 阿里百炼OpenAI兼容接口地址
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",  
)

# 调用模型生成回复
completion = client.chat.completions.create(
	# 指定通义千问模型版本（如qwen-plus增强版、qwen-turbo轻量版）
    model="qwen-plus",  
    messages=[
        {"role": "system", "content": "你叫小Q，是一名专业的翻译助手"},
        {"role": "user", "content": "你是谁？"},
    ],
)

# 打印模型回复内容
print(completion.choices[0].message.content)

方式二：通过LangChain调用

python 复制代码

# 安装LangChain对接OpenAI的依赖包（适配阿里百炼兼容接口）
pip install langchain-openai
from langchain_openai import ChatOpenAI

# 初始化模型（适配阿里百炼接口）
llm = ChatOpenAI(
	# 阿里百炼的通义千问模型名称
    model_name="qwen-plus",  
    # 阿里百炼OpenAI兼容接口地址
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",  
    # 替换为自己的API Key
    api_key="你的阿里百炼API Key",  
)

# 调用模型并打印结果
response = llm.invoke(
    [
        {"role": "system", "content": "你叫小Q，是一名专业的翻译助手"},
        {"role": "user", "content": "你是谁？"},
    ],
)
print(response.content)

三、核心注意事项

大模型调用主要分为两种模式：同步调用 （一次性获取完整回复结果，适合简单问答）和 流式调用（逐字/逐段实时输出，贴近真实聊天体验，适合长文本生成场景）。

四、参考文档

Ollama 官方大模型列表：ollama.com/search
LangChain 对接 Ollama 官方文档：docs.langchain.com/oss/python/...
阿里百炼开放平台文档：bailian.console.aliyun.com/?tab=doc#/d...