ollama安装:
安装文件下载
到ollama官网下载对应系统的安装包,支持Windows macOS Linux主流系统。
Windows系统下载后直接双击exe文件安装。
安装结果验证
- 浏览器访问:
http://localhost:11434/
,出现Ollama is running
的字样,证明安装成功。 - 打开命令行窗口,执行 命令:
ollama
,打印如下:证明安装成功。
部署大模型
ollama使用方式和docker类似,我们可以通过命令 ollama run 大模型
下载并启动一个大模型服务,如下:
ollama run llama3.2
:(下载速度取决于网络环境)
然后我们可以直接在命令行可大模型进行对话交流了。(响应速度取决于电脑性能)
输入/bye
可以退出对话。
REST API
Ollama 提供了用于运行和管理模型的 REST API。
生成补全
格式
bash
POST /api/generate
使用提供的模型生成给定提示的响应。这是一个流端点,因此会有一系列响应。最终响应对象将包括来自请求的统计信息和附加数据。
参数
model
:(必填)模型名称,后面可以跟tag
。比如gemma:7b
prompt
:生成响应的提示images
:(可选)base64 编码图像的列表(对于多模式模型,例如llava
)
高级参数(可选):
format
:返回响应的格式。目前唯一接受的值是json
options
:模型文件文档中列出的其他模型参数,例如temperature
system
:系统消息(覆盖 中定义的内容Modelfile
)template
:要使用的提示模板(覆盖 中定义的内容Modelfile
)context
:从先前的请求返回的上下文参数/generate
,这可用于保留简短的会话记忆stream
:false
响应是否作为单个响应对象返回,而不是对象流raw
:如果true
没有格式化,将应用于提示。raw
如果您在 API 请求中指定完整模板化提示,则可以选择使用该参数keep_alive
:控制模型在请求后加载到内存中的时间(默认值5m
:)
请求和响应的格式均为json
格式,发出请求的格式:
sh
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "你是谁",
"format": "json",
"stream": false
}'
在apifox中进行测试:
响应:
json
{
"model": "llama3.2",
"created_at": "2024-11-02T08:56:15.0143737Z",
"response": "{}\n \n\n \n \n \n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n \n\n\n\n\n\n\n\n\n\n \n\n\n \n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n \n \n\n\n\n\n\n\n\n\n \n\n\n\n\n \n\n\n\n\n \n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n \n\n",
"done": false
}
还有很多API,使用参考见:OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示 - 优一未来