什么是 Hermes 大模型？

Hermes 不是从头训练的基础模型，而是基于现有的强大基础模型（如 Meta 的 Llama 2、Mistral 等），通过指令微调 得到的一系列对话模型。你可以把它理解成：

基础模型（如 Llama）+ 高质量指令数据 + 精细微调 = 更听话、更会聊天的 Hermes

极强的指令遵循能力
Hermes 最大的卖点是能严格、精确地理解并执行复杂指令，包括要求它输出特定格式（如 JSON）、扮演特定角色、或完成多步骤任务。
擅长角色扮演与创意写作
由于训练数据中包含了大量高质量的角色扮演、小说及对话数据，它的文本风格生动、细腻，非常适合构建虚拟角色或进行创意内容生成。
长上下文与思维链
许多 Hermes 版本支持超长上下文，并能通过"让我们一步步思考"等提示，展现清晰的推理过程。
完全开源、可商用
Hermes 系列大多数版本基于 Apache 2.0 等宽松许可证发布，模型权重、训练方法全公开，允许商业使用，对开发者非常友好。

常见的 Hermes 模型通常这样命名，例如：

Nous-Hermes-2-Mixtral-8x7B-DPO

这串名字可以这样拆解：

其他常见变体还有 Nous-Hermes-2-Yi-34B 等，都是换用了不同的"大脑"基础模型。

指令微调
让模型学会"理解人类指令并生成有用、安全的回复"的关键步骤。Hermes 正是此技术的优秀成果。
基础模型
像 Llama、Mistral、Yi 这些在海量文本上预训练的模型，是 Hermes 的"基座"。模型的"智商"很大程度上由基座决定，而"情商"和"听话程度"则由微调赋予。
开源大模型社区
Hermes 是开源社区协作的典型代表，由 Nous Research 制作并免费发布，任何人都可以下载、部署和微调。
DPO（直接偏好优化）
一种比传统 RLHF（基于人类反馈的强化学习）更简单、更稳定的微调技术，通过直接对比"好的回答"和"差的回答"来优化模型。

简而言之，如果你需要一个开源、能高度服从复杂指令、且擅长创意和角色扮演的模型，Hermes 系列会是首选之一。