Debug:mlx-omni-server服务器用qwen3模型出错

背景:AI回答出错,开始以为是代码问题使得之前的对话出现在上下文,没想到是mlx-omni-server的问题

debug过程:

最开始比较好运地在github论坛找到同样的问题,大概率确认服务器出错。

之后用copilot写了一个简单的go代码重现情况,并通过服务器log监视thinking process有没有包含旧提问信息。

调查发现哪怕用独立client也可能会吃到之前的错误内存。另外换成deepseek等模型也会有同样问题。

于是考虑更换server tool,从chatgpt推荐里选择了ollama。ollama同样支持openai的api,所以后端代码不用修改。

LLM server安装都很简单,不用过多设置,一条指令就能启动服务。测试后发现之前的bug被解决。

之后需要补上api-key的认证,但这时发现ollama不支持api-key。好在openai的api token认证和http的bearer token认证格式一致,所以加一层nginx检查token即可。

相关推荐
致Great3 小时前
TextIn × Agentic RAG:让大模型真正读懂学术论文
llm·agent
Stirner5 小时前
A2UI : 以动态 UI 代替 LLM 文本输出的方案
前端·llm·agent
kagg8867 小时前
mcp-gateway —— 隐藏mcp上下文以避免不必要的tokens开销
llm·mcp
夏日白云7 小时前
《PDF解析工程实录》第 17 章|内容流里“看得见却看不见”的字符:那些幽灵文字从哪来?
pdf·llm·大语言模型·rag·文档解析
人工干智能18 小时前
OpenAI Assistants API 中 client.beta.threads.messages.create方法,兼谈一星*和两星**解包
python·llm
小Pawn爷1 天前
10.不改模型只改提示P-Tuning微调新思路
llm·p-tuning
aopstudio1 天前
Jinja 是什么?为什么大模型的聊天模板使用它?
自然语言处理·llm·jinja
缘友一世1 天前
基于GSPO算法实现Qwen3-VL 8B在MathVista数据集上的强化学习实践入门
llm·rl·gspo·rlvr
AGI杂货铺1 天前
零基础也能快速搭建的Deep Agents
ai·langchain·llm·agent·deepagent