LLM 和 Embedding 不能混用——一个血泪教训

本文面向：配置 ChatCrystal 或任何需要 LLM + Embedding 的工具时踩过坑的开发者。预计阅读时间：5 分钟

问题

配置 ChatCrystal 时，很多人会这样填：

yaml 复制代码

LLM Provider: openai
LLM Model: gpt-4o

Embedding Provider: openai
Embedding Model: gpt-4o        ← 错！

然后报错：404 Not Found 或 This model does not support embeddings。

LLM 和 Embedding 是两种完全不同的任务：

GPT-4、Claude、Qwen 这些 LLM 不支持 /v1/embeddings 端点。 它们是生成模型，不是向量模型。你不能用一个锤子当螺丝刀使。

LLM 和 Embedding 必须分别配置，用不同的模型：

env 复制代码

LLM_PROVIDER=ollama
LLM_MODEL=qwen2.5:7b           # 生成模型

EMBEDDING_PROVIDER=ollama
EMBEDDING_MODEL=nomic-embed-text  # 向量模型

env 复制代码

LLM_PROVIDER=openai
LLM_MODEL=gpt-4o                # 生成模型

EMBEDDING_PROVIDER=openai
EMBEDDING_MODEL=text-embedding-3-small  # 向量模型

env 复制代码

LLM_PROVIDER=openai
LLM_MODEL=gpt-4o                # 云端 LLM，质量更好

EMBEDDING_PROVIDER=ollama
EMBEDDING_MODEL=nomic-embed-text  # 本地 Embedding，免费

三种方案都可以，根据你的预算和隐私需求选择。

Provider	可用模型
Ollama	nomic-embed-text, mxbai-embed-large
OpenAI	text-embedding-3-small, text-embedding-3-large
Google	text-embedding-004

注意： Anthropic（Claude）没有提供 Embedding 模型。如果你用 Anthropic 做 LLM，Embedding 必须用其他 Provider。

bash 复制代码

crystal config test

输出示例：

less 复制代码

LLM connection: OK (model: qwen2.5:7b, latency: 1.2s)
Embedding connection: OK (model: nomic-embed-text, latency: 0.3s)

如果其中一个报错，检查：

理论上可以用一个模型同时做生成和向量化，但实际不行：

模型名填错了，或者该模型不支持当前 API 端点。检查你填的 Model 名称是否存在于对应 Provider。

Ollama 没有拉取该模型。运行 ollama pull 模型名 下载。

API Key 错误或过期。检查 LLM_API_KEY 或 EMBEDDING_API_KEY 配置。