Hermes 不是从头训练的基础模型,而是基于现有的强大基础模型(如 Meta 的 Llama 2、Mistral 等),通过指令微调 得到的一系列对话模型。你可以把它理解成:
基础模型(如 Llama)+ 高质量指令数据 + 精细微调 = 更听话、更会聊天的 Hermes
它的核心特点
- 极强的指令遵循能力
Hermes 最大的卖点是能严格、精确地理解并执行复杂指令,包括要求它输出特定格式(如 JSON)、扮演特定角色、或完成多步骤任务。 - 擅长角色扮演与创意写作
由于训练数据中包含了大量高质量的角色扮演、小说及对话数据,它的文本风格生动、细腻,非常适合构建虚拟角色或进行创意内容生成。 - 长上下文与思维链
许多 Hermes 版本支持超长上下文,并能通过"让我们一步步思考"等提示,展现清晰的推理过程。 - 完全开源、可商用
Hermes 系列大多数版本基于 Apache 2.0 等宽松许可证发布,模型权重、训练方法全公开,允许商业使用,对开发者非常友好。
主要版本与命名
常见的 Hermes 模型通常这样命名,例如:
Nous-Hermes-2-Mixtral-8x7B-DPO
这串名字可以这样拆解:
- Nous:发布方,Nous Research
- Hermes:模型系列名
- 2:第二代
- Mixtral-8x7B:所基于的基础模型(来自 Mistral AI 的专家混合模型)
- DPO:微调方法,直接偏好优化,让模型更符合人类偏好
其他常见变体还有 Nous-Hermes-2-Yi-34B 等,都是换用了不同的"大脑"基础模型。
关联的核心概念
- 指令微调
让模型学会"理解人类指令并生成有用、安全的回复"的关键步骤。Hermes 正是此技术的优秀成果。 - 基础模型
像 Llama、Mistral、Yi 这些在海量文本上预训练的模型,是 Hermes 的"基座"。模型的"智商"很大程度上由基座决定,而"情商"和"听话程度"则由微调赋予。 - 开源大模型社区
Hermes 是开源社区协作的典型代表,由 Nous Research 制作并免费发布,任何人都可以下载、部署和微调。 - DPO(直接偏好优化)
一种比传统 RLHF(基于人类反馈的强化学习)更简单、更稳定的微调技术,通过直接对比"好的回答"和"差的回答"来优化模型。
简而言之,如果你需要一个开源、能高度服从复杂指令、且擅长创意和角色扮演的模型,Hermes 系列会是首选之一。