Ollama平替!LM Studio本地大模型调用实战

本文已收录在Github关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W技术追随者
  • 🔧 大厂分布式系统/数据中台实战专家
  • 🏆 主导交易系统百万级流量调优 & 车联网平台架构
  • 🧠 AIGC应用开发先行者 | 区块链落地实践者
  • 🌍 以技术驱动创新,我们的征途是改变世界!
  • 👉 实战干货:编程严选网

Ollama 平替!LM Studio本地大模型调用实战指南

0 前言

可像 Ollama 通过暴露本地端口,实现本地客户端调用。

1 选择模型

在 LM Studio 的 "开发者" 选项卡中选择模型:

2 端口暴露

设置暴露的端口(默认1234):

启用 CORS 后,可对接网页应用或其他客户端工具。

3 启动服务

点击状态选项卡:

控制台会显示运行日志和访问地址:

4 快速上手

4.1 快速ping

列出已加载并就绪的模型:

bash 复制代码
curl http://127.0.0.1:1234/v1/models/

这也是验证服务器是否可访问的一种有效方法!

4.2 聊天

这是一个类似调用OpenAI的操作,通过curl工具访问/v1/chat/completion端点:

  • 在Mac或Linux系统,可用任意终端运行
  • Windows系统用Git Bash
bash 复制代码
curl http://127.0.0.1:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama-4-maverick-17b-128e-instruct",
    "messages": [ 
      { "role": "system", "content": "Always answer in rhymes." },
      { "role": "user", "content": "Introduce yourself." }
    ], 
    "temperature": 0.7, 
    "max_tokens": -1,
    "stream": true
  }'

该调用是"无状态的",即服务器不会保留对话历史记录。调用方有责任在每次调用时提供完整的对话历史记录。

流式传输 V.S 累积完整响应

注意"stream": true(流式传输:开启)参数:

  • true(开启)时,LM Studio会在预测出标记(token)的同时将其逐一流式返回
  • 如将此参数设置为false(关闭),在调用返回之前,完整的预测结果会被先累积起来。对于较长的内容生成或者运行速度较慢的模型,这可能需要花费一些时间!
相关推荐
CareyWYR5 分钟前
每周AI论文速递(250421-250425)
人工智能
电商api接口开发16 分钟前
ASP.NET MVC 入门指南三
后端·asp.net·mvc
声声codeGrandMaster17 分钟前
django之账号管理功能
数据库·后端·python·django
追逐☞24 分钟前
机器学习(10)——神经网络
人工智能·神经网络·机器学习
winner888131 分钟前
对抗学习:机器学习里的 “零和博弈”,如何实现 “双赢”?
人工智能·机器学习·gan·对抗学习
Elastic 中国社区官方博客40 分钟前
使用 LangGraph 和 Elasticsearch 构建强大的 RAG 工作流
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
娃娃略40 分钟前
【AI模型学习】双流网络——更强大的网络设计
网络·人工智能·pytorch·python·神经网络·学习
我的golang之路果然有问题43 分钟前
案例速成GO+redis 个人笔记
经验分享·redis·笔记·后端·学习·golang·go
福尔摩东1 小时前
从零到精通:2025年最全大模型学习资源
人工智能·github
嘻嘻嘻嘻嘻嘻ys1 小时前
《Vue 3.3响应式革新与TypeScript高效开发实战指南》
前端·后端