LLM 和 Embedding 不能混用——一个血泪教训

本文面向:配置 ChatCrystal 或任何需要 LLM + Embedding 的工具时踩过坑的开发者。 预计阅读时间:5 分钟


问题

配置 ChatCrystal 时,很多人会这样填:

yaml 复制代码
LLM Provider: openai
LLM Model: gpt-4o

Embedding Provider: openai
Embedding Model: gpt-4o        ← 错!

然后报错:404 Not FoundThis model does not support embeddings

原因

LLM 和 Embedding 是两种完全不同的任务:

LLM Embedding
输入 文本 文本
输出 文本(生成内容) 向量(一组浮点数)
API 端点 /v1/chat/completions /v1/embeddings
用途 对话、摘要、推理 语义搜索、相似度计算

GPT-4、Claude、Qwen 这些 LLM 不支持 /v1/embeddings 端点。 它们是生成模型,不是向量模型。你不能用一个锤子当螺丝刀使。

正确配置

LLM 和 Embedding 必须分别配置,用不同的模型:

方案一:全部本地(Ollama)

env 复制代码
LLM_PROVIDER=ollama
LLM_MODEL=qwen2.5:7b           # 生成模型

EMBEDDING_PROVIDER=ollama
EMBEDDING_MODEL=nomic-embed-text  # 向量模型

方案二:全部云端(OpenAI)

env 复制代码
LLM_PROVIDER=openai
LLM_MODEL=gpt-4o                # 生成模型

EMBEDDING_PROVIDER=openai
EMBEDDING_MODEL=text-embedding-3-small  # 向量模型

方案三:混合搭配

env 复制代码
LLM_PROVIDER=openai
LLM_MODEL=gpt-4o                # 云端 LLM,质量更好

EMBEDDING_PROVIDER=ollama
EMBEDDING_MODEL=nomic-embed-text  # 本地 Embedding,免费

三种方案都可以,根据你的预算和隐私需求选择。

各 Provider 的可用模型

LLM(生成模型)

Provider 可用模型
Ollama qwen2.5:7b, llama3.1:8b, mistral:7b 等
OpenAI gpt-4o, gpt-4-turbo, gpt-3.5-turbo
Anthropic claude-sonnet-4-20250514, claude-haiku-4-5-20251001
Google gemini-2.0-flash, gemini-2.5-pro

Embedding(向量模型)

Provider 可用模型
Ollama nomic-embed-text, mxbai-embed-large
OpenAI text-embedding-3-small, text-embedding-3-large
Google text-embedding-004

注意: Anthropic(Claude)没有提供 Embedding 模型。如果你用 Anthropic 做 LLM,Embedding 必须用其他 Provider。

怎么验证配置正确

bash 复制代码
crystal config test

输出示例:

less 复制代码
LLM connection: OK (model: qwen2.5:7b, latency: 1.2s)
Embedding connection: OK (model: nomic-embed-text, latency: 0.3s)

如果其中一个报错,检查:

  1. Provider 和 Model 是否匹配
  2. API Key 是否正确(云端 Provider)
  3. 服务是否在运行(Ollama:ollama list

为什么不能统一

理论上可以用一个模型同时做生成和向量化,但实际不行:

  1. API 不兼容 --- LLM 的 /v1/chat/completions 返回文本,不是向量
  2. 模型结构不同 --- Embedding 模型专门训练为输出有意义的向量表示
  3. 质量差异大 --- 用 GPT-4 强行做 Embedding(如果有的话)效果远不如专用模型

常见报错

404 Not Found

模型名填错了,或者该模型不支持当前 API 端点。检查你填的 Model 名称是否存在于对应 Provider。

model not found

Ollama 没有拉取该模型。运行 ollama pull 模型名 下载。

unauthorized

API Key 错误或过期。检查 LLM_API_KEYEMBEDDING_API_KEY 配置。


项目地址:github.com/ZengLiangYi...

相关推荐
jeffer_liu6 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
程序员佳佳8 小时前
连续使用三个月向量 API 中转站,它真的适配向量落地场景吗?
人工智能·gpt·aigc·ai编程·agi
孟健10 小时前
白板不是关键,Miro靠什么年入6亿?
ai编程
ServBay11 小时前
Qwen3.7-Max 发布,全能智能体基座
后端·aigc·ai编程
七牛开发者11 小时前
周三头条|从 Claude 案例看 Coding Agent 的计划层设计
ai编程
CoCo的编程之路12 小时前
2026全栈演进:使用前端开发助手进行项目重构的最佳工具
大数据·前端·人工智能·ai编程·comate
CriticalThinking13 小时前
在 JetBrains IDE 中通过 ACP 协议集成 Claude Code等外部工具
ide·agent·ai编程
想你依然心痛13 小时前
HarmonyOS 6(API 23)实战:打造“光码智学舱“——AI编程学习新范式
学习·ar·ai编程·harmonyos·智能体
hlongc13 小时前
别再盯着终端等 AI:Claude Code Hooks 和 OpenCode Plugins 实战
ai编程
OpenTiny社区14 小时前
一行命令添加 AI 对话入口!TinyRobot 也太省事了~
前端·vue.js·ai编程