Debug:mlx-omni-server服务器用qwen3模型出错

背景:AI回答出错,开始以为是代码问题使得之前的对话出现在上下文,没想到是mlx-omni-server的问题

debug过程:

最开始比较好运地在github论坛找到同样的问题,大概率确认服务器出错。

之后用copilot写了一个简单的go代码重现情况,并通过服务器log监视thinking process有没有包含旧提问信息。

调查发现哪怕用独立client也可能会吃到之前的错误内存。另外换成deepseek等模型也会有同样问题。

于是考虑更换server tool,从chatgpt推荐里选择了ollama。ollama同样支持openai的api,所以后端代码不用修改。

LLM server安装都很简单,不用过多设置,一条指令就能启动服务。测试后发现之前的bug被解决。

之后需要补上api-key的认证,但这时发现ollama不支持api-key。好在openai的api token认证和http的bearer token认证格式一致,所以加一层nginx检查token即可。

相关推荐
Sakuraba Ema1 小时前
从零理解 MoE(Mixture of Experts)混合专家:原理、数学、稀疏性、专家数量影响与手写 PyTorch 实现
人工智能·pytorch·python·深度学习·数学·llm·latex
arvin_xiaoting5 小时前
OpenClaw学习总结_I_核心架构系列_Gateway架构详解
学习·架构·llm·gateway·ai-agent·飞书机器人·openclaw
arvin_xiaoting5 小时前
OpenClaw学习总结_I_核心架构系列_AgentLoop详解
java·学习·架构·llm·ai-agent·飞书机器人·openclaw
huazi-J6 小时前
Datawhale openclaw 课程 task2:clawX本地openclaw使用skill
llm·datawhale·openclaw·龙虾
啊阿狸不会拉杆7 小时前
《现代人工智能基础》个人解读分享
人工智能·ai·llm·aigc·agent·ml·dl
弗锐土豆7 小时前
使用ollama运行本地大模型
llm·大语言模型·安装·ollama
华农DrLai7 小时前
什么是自动Prompt优化?为什么需要算法来寻找最佳提示词?
人工智能·算法·llm·nlp·prompt·llama
洛阳泰山21 小时前
MaxKB4j Docker Compose 部署指南
java·docker·llm·springboot·rag·maxkb4j
cuguanren1 天前
MuleRun vs OpenClaw vs 网页服务:云端安全与本地自由的取舍之道
安全·大模型·llm·agent·智能体·openclaw·mulerun
大数据AI人工智能培训专家培训讲师叶梓1 天前
FaithLens:8B 参数大模型幻觉检测器,性能超 GPT-4.1 且低成本可解释
大模型·llm·大模型幻觉·人工智能讲师·大模型讲师·大模型培训·llm幻觉