RWKV-5/6（Eagle & Finch）：基于矩阵值状态和动态递归的新模型架构

2024年4月9日，RWKV Foundation 发布了 RWKV 新架构的最新论文------《Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence》，论文由 Bo PENG 和 RWKV 开源社区成员共同完成。

论文地址：arxiv.org/abs/2404.05...

论文内容摘要

论文提出了两种新的 RWKV 架构：Eagle (RWKV-5) 和 Finch (RWKV-6)，这两种序列模型在 RWKV-4 架构的基础上进行了改进。

对比 RWKV-4 ,新 RWKV 架构的改进包括多头矩阵值状态（multi-headed matrix-valued states）和动态递归机制（dynamic recurrence mechanism），这些改进提高了 RWKV 模型的表达能力，同时保持 RNN 的推理效率特征。

新的 RWKV 架构还使用一个包含 1.12 T tokens 的新多语言语料库和一个基于 greedy matching 的快速分词器，以增强 RWKV 的多语言能力。

基于新的架构训练了四个 Eagle (RWKV-5) 模型（分别是 0.4B、1.5B、3B、7B 参数），以及两个 Finch 模型（分别是 1.6B 、3B 参数）。

新架构的 RWKV 模型在各种基准测试中都实现了具有竞争力的性能，所有 Eagle 和 Finch 模型都基于 Apache 2.0 开源许可证下在 HuggingFace 上发布：
huggingface.co/RWKV

RWKV 当前的多模态工作包含 RWKV Music（音乐方向）和 VisualRWKV（图像方向）。

未来 RWKV 的工作将聚焦于扩大并改进训练数据集，以及训练和发布更大规模的 Finch (RWKV-6) 模型，例如 7B 和 14B 参数，并通过 Mixture of Experts 降低推理和训练成本。

新架构升级细节

Eagle (RWKV-5) 通过使用富有表现力的多头矩阵值状态（而不是向量值状态）、重新构造的接受态和额外的门控机制，改进了从 RWKV-4 中学习到的架构和学习衰减进度。

Finch (RWKV-6) 通过引入新的数据相关函数来进一步改进架构的表现能力和灵活性，用于时间混合和令牌移位模块，包括参数化线性插值。

此外，Finch (RWKV-6) 提出了对低秩自适应函数的新用法，以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。

最后，RWKV 新架构引入了一种新的分词器 "RWKV World Tokenizer"，和一个新数据集 "RWKV World v2"（1.12 T tokens），两者用于提高 RWKV 模型在多语言和代码数据上的性能。

新的分词器 "RWKV World Tokenizer" 包含不常见语言的词汇，并且通过基于 Trie 的 greedy matching 进行快速分词。
新数据集 "RWKV World v2" 是一个新的多语言 1.12 T tokens 数据集，取自各种手工选择的公开可用数据源，数据组成约 70% 是英语，15% 是多语言数据，15% 是代码。

新架构基准测试

RWKV 对新架构和模型进行了各类语言建模实验和基准测试，以下为部分基准测试效果展示。

MQAR 测试结果

MQAR (Multiple Query Associative Recall) 任务是一种用于评估语言模型的任务，旨在测试模型在多次查询情况下的联想记忆能力。在这类任务中，模型需要通过给定的多个查询来检索相关的信息。

MQAR任务的目标是衡量模型在多次查询下检索信息的能力，以及其对不同查询的适应性和准确性。

下图为RWKV-4、Eagle、 Finch 和其他非 Transformer 架构的 MQAR 任务测试结果。