RAG实战基础篇/windows电脑快速部署qwen3:14B

现阶段,在本地部署ollama非常简单,准备好一个有GPU的电脑,十分钟轻松部署qwen3:14b。实现本地的大模型部署。

我这里为了方便起见,直接使用windows电脑下载一个ollama。

访问ollama GIthub地址:ollama开源地址

直接下载安装包:

双击安装;

安装完毕后,我们在windows终端中输入:ollama --version

出现版本号就安装成功了:

然后,我们用ollama在本地拉取一个qwen3:14b下来:

复制代码
ollama run qwen3:14b

我们等待完成

运行成功就可以对话了:

我们用nvidia-smi查看一下显存:

14B(int4量化)占用了11.5G的显存。

我们可以测试一下API是否能够正常调用:

我们请求本地接口:http://localhost:11434/v1/chat/completions

选择POST方法

请求体输入:

复制代码
{
    "model": "qwen3:14b",
    "messages": [{
    "role": "user",
    "content": "你现在是一个翻译,我发你一段文字,你翻译成日语。"
    },
    {
    "role": "assistant",
    "content": "好的"
    },
    {
    "role": "user",
    "content": "今天天气怎样?"
    }],
    "stream": false
}

可以看到本地大模型已经通了。

如果需要流式输出,将stream字段修改为true即可。

现在我们已经准备好本地的大模型环境了,后续我们将基于本地的大模型搭建一个小型RAG应用,实现自己个人知识库的问答。

相关推荐
勾股导航11 小时前
K-means
人工智能·机器学习·kmeans
liliangcsdn11 小时前
Diff2Flow中扩散和流匹配的对齐探索
人工智能
SmartBrain11 小时前
战略洞察:以AI为代表的第四次工业革命
人工智能·语言模型·aigc
一个处女座的程序猿11 小时前
AI之Agent之VibeCoding:《Vibe Coding Kills Open Source》翻译与解读
人工智能·开源·vibecoding·氛围编程
Jay Kay11 小时前
GVPO:Group Variance Policy Optimization
人工智能·算法·机器学习
风指引着方向11 小时前
归约操作优化:ops-math 的 Sum/Mean/Max 实现
人工智能·wpf
机器之心11 小时前
英伟达世界模型再进化,一个模型驱动所有机器人!机器人的GPT时刻真正到来
人工智能·openai
纯爱掌门人11 小时前
终焉轮回里,藏着 AI 与人类的答案
前端·人工智能·aigc
人工智能AI技术11 小时前
Transformer:大模型的“万能骨架”
人工智能
uesowys12 小时前
Apache Spark算法开发指导-Factorization machines classifier
人工智能·算法