报错内容
Server error: 503 - [address=0.0.0.0:12781, pid=304366] No available slot found for the embedding model. We recommend to launch the embedding model first, and then launch the LLM models.
目前GPU占用情况如下
解决办法: 关闭大模型, 先把 embedding models 启动起来, 然后再启动 LLM 模型
启动 EMBBEDDING MODEL后的效果
启动LLM后的效果