Debug:mlx-omni-server服务器用qwen3模型出错

背景:AI回答出错,开始以为是代码问题使得之前的对话出现在上下文,没想到是mlx-omni-server的问题

debug过程:

最开始比较好运地在github论坛找到同样的问题,大概率确认服务器出错。

之后用copilot写了一个简单的go代码重现情况,并通过服务器log监视thinking process有没有包含旧提问信息。

调查发现哪怕用独立client也可能会吃到之前的错误内存。另外换成deepseek等模型也会有同样问题。

于是考虑更换server tool,从chatgpt推荐里选择了ollama。ollama同样支持openai的api,所以后端代码不用修改。

LLM server安装都很简单,不用过多设置,一条指令就能启动服务。测试后发现之前的bug被解决。

之后需要补上api-key的认证,但这时发现ollama不支持api-key。好在openai的api token认证和http的bearer token认证格式一致,所以加一层nginx检查token即可。

相关推荐
Lsland..2 小时前
AI Agent到底是什么
java·人工智能·llm
swipe11 小时前
Neo4j + Graph RAG 医疗知识图谱工程实践:患者教育问答真正需要的是“关系可追溯”
后端·langchain·llm
沐自礼14 小时前
DeepSeekMoE 原理
人工智能·llm
小新同学^O^16 小时前
简单学习 --> 指令微调
人工智能·学习·llm·指令微调
swipe17 小时前
混合检索 RAG 的工程化实践:不是多查几路,而是把召回、重排和上下文预算管好
后端·langchain·llm
创世宇图17 小时前
Claude Opus 4.8 深度实测:动态多 Agent 协同、Effort Control 与幻觉抑制的工程化解析
ai·llm·agent·claude·ai工程化
lhxcc_fly20 小时前
2.LangChain--聊天模型之流式传输
ai·langchain·llm·流式传输
隐层漫游者1 天前
深度解密LangChain与RAG:从零构建智能衣答系统,掌握大模型本地知识库的终极奥义
llm
文歌子1 天前
MCP 协议:AI 地学工具链的通用胶水
llm·mcp
lhxcc_fly1 天前
3.LangChain组件--消息
langchain·llm·messages