RWKV-7:极先进的大模型架构,长文本能力极强

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

RWKV-7 架构性能表现

RWKV-7 的大海捞针测试

RWKV-7-World 0.1B(L12-D768)在 ctx 4k 预训练 1T tokens(world-v2.8),无需任何微调,即可完美通过 ctx 16k 的大海捞针。且 world 系列模型支持全球 100+ 种语言和代码。

RWKV-7-Pile 0.4B(L24-D1024)在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可完美通过 ctx 16k 的大海捞针。

RWKV-7 的长文本外推测试

RWKV-7-Pile 系列模型,在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可自动外推到 ctx 32k+ 长度,且 ppl 随 ctx 增加持续稳步下降,说明还远未达到它的外推极限。

下面是 RWKV-7 与 Mamba 的对比,所有模型(除-slimpj)都是在 Pile 训练:

评测代码由社区完成:github.com/Jellyfish04...

Pile 模型横向评测

我们对多款 Pile 模型 进行了综合测评。这里的所有模型,基于相同的 EleutherAI/pile 数据集训练,并使用相同的分词器(tokenizer)进行推理,所以是真正公平公正的模型性能对比。

我们对比了以下模型,涵盖 0.1B、0.4B、1.5B 三种参数:

  • RWKV-7 "Goose"(例如 L12-D768, lr 8e-4 to 3e-5 cosine decay, wd 0.1, bsz 8x30x4096,随机初始化。我们没有使用任何"技巧"提升性能,训练过程非常稳定,无任何毛刺,完全可复现,欢迎联系我们复现)
  • RWKV-4 "Dove"
  • Mamba(我们发现 Mamba 在实际训练中很不稳定,这里使用的是他们提供的模型,我们无法验证他们是否使用了"技巧"提升性能)
  • Pythia

从评测结果,可见 RWKV-7-Pile 在各项英文和多语言测试中,都拥有显著优势:

注意 RWKV-7 拥有显著更强的 ReCoRD 评分,这是长文本材料问答任务,表明 RWKV-7 能够更好地理解和使用长文本的信息。

此外,我们训练了两个"深窄"(更多的层数和更小的维度)的 RWKV-7-Pile 0.1B 模型 ,分别是 L25-D576 和 L33-D512,它们的综合性能更强:

这表明 RWKV 架构可通过使用"深窄"尺寸,进一步提升性能。

0.1B 模型横向评测

RWKV-7-World-0.1B 是全球最强的 0.1B 多语言模型,在 world-2.8(1T tokens)数据训练后,拥有一流的英文能力,且多语言能力显著超越所有 0.1B 模型,支持全球 100+ 种语言和代码。

注意 RWKV-7-World-0.1B 在模型设计上保持 L12-D768 尺寸,而非 SmolLM2 的 L30-D576 尺寸。更少的神经网络层数(L12)使得 RWKV-7 的速度更快,更适合边缘设备等资源受限的推理场景,而且微调训练所需的数据和计算资源也更低。

这里的所有 RWKV 模型均已开源发布:HuggingFace 下载链接

RWKV-7-World-0.1B 生成案例

作为仅 0.1B 参数的 L12-D768 小模型,RWKV-7-World-0.1B 拥有超越其尺寸的综合能力。以下是 RWKV-7-World-0.1B 的生成案例(使用 RWKV-Runner 运行):

![multilang-case-jpn](files.mdnice.com/user/69593/... =90%x)

![multilang-case-chn-novel](files.mdnice.com/user/69593/... =85%x)

其中的部分生成内容不准确,但考虑到,这是一个 0.1B L12-D768 的基底模型,尚未做任何 post-training,其性能可谓令人惊讶。

在 Huggingface Gradio Demo 测试 RWKV-7-World 0.1B

我们正在训练更大参数的 RWKV-7 模型,具体的发布计划请见后文。

RWKV-7 架构介绍

RWKV-7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-7 拥有 NC1 的表达能力,使其可以解决许多 attention 无法解决的问题。

简单地说,传统注意力机制(如 Transformer 的 QKV-softmax-attention)会将多个 { <math xmlns="http://www.w3.org/1998/Math/MathML"> k , v k, v </math>k,v}(key 和 value 的向量对)存储起来,通过 q(query,查询向量)去匹配 key,得到对应的 value 输出。

RWKV-7 不直接存储 { <math xmlns="http://www.w3.org/1998/Math/MathML"> k , v k, v </math>k,v} 对,而是通过动态计算更新 state,从上下文动态学习 key 和 value 之间的关系,再使用更新后的 state 处理新的输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> q q </math>q(在 RWKV 中是 <math xmlns="http://www.w3.org/1998/Math/MathML"> r r </math>r) 并得到输出。

具体而言,RWKV-7 模型拥有一个内部模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> v ≈ k S ⊤ v ≈ k S^\top </math>v≈kS⊤ 。它需要拟合一个简单的目标:对于给定的两个向量序列 { <math xmlns="http://www.w3.org/1998/Math/MathML"> k t k_t </math>kt} 和 { <math xmlns="http://www.w3.org/1998/Math/MathML"> v t v_t </math>vt},通过 <math xmlns="http://www.w3.org/1998/Math/MathML"> S S </math>S(state)把 <math xmlns="http://www.w3.org/1998/Math/MathML"> k i k_i </math>ki 转化为 <math xmlns="http://www.w3.org/1998/Math/MathML"> v i v_i </math>vi ,输出的 <math xmlns="http://www.w3.org/1998/Math/MathML"> v v </math>v 需要和目标的 <math xmlns="http://www.w3.org/1998/Math/MathML"> v v </math>v 尽量接近。

为实现这个目标,RWKV-7 在推理时,对于 L2 损失函数 <math xmlns="http://www.w3.org/1998/Math/MathML"> L = 1 2 ∥ v − k S ⊤ ∥ 2 \mathcal{L} = \frac{1}{2} \| v - k S^\top \|^2 </math>L=21∥v−kS⊤∥2 自动模拟出动态的梯度下降,以此来持续训练内部模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> v ≈ k S ⊤ v ≈ kS^\top </math>v≈kS⊤。

因此,RWKV-7 是一个真正的持续学习模型。

有关 RWKV-7 的更详细设计思路(公式、伪代码等),请查看文章:RWKV-7 as a meta-in-context learner,从第一性原理真正理解

这种动态 State 演化机制,使得 RWKV-7 更擅长处理长上下文内容,拥有显著更强的长文本能力,且生成的内容更少出现自我重复,比各种 Transformer 和 RWKV-6 版本看上去更有连贯的思路。

RWKV-7 的架构图:

![rwkv-7-architecture](files.mdnice.com/user/69593/... =70%x)

RWKV-7 的训练和推理

RWKV-7 架构的训练和推理代码均已定稿,架构论文正在由彭博和社区成员联合撰写,欢迎大家参与,可在 EleutherAI 的 Discord 搜索 RWKV-papers 频道。

RWKV-7 训练代码可在 RWKV-LM 仓库中查看,RWKV-PEFT 项目已支持微调 RWKV-7 模型。

推理方面,RWKV pip 0.8.28 版本、web-rwkvAi00RWKV Runner 等 RWKV 推理工具均已支持 RWKV-7 模型。

RWKV-7 模型发布计划

我们正在训练更大的 RWKV-7-World 模型,路线图如下:

模型 数据集 计划发布日期
RWKV-7-0.4B World-v2.9(2T) 2025年1月上旬
RWKV-7-1.5B World-v3(3.1T) 2025年1月下旬
RWKV-7-2.9B World-v3(3.1T) 2025年2月中旬

请关注我们的公众号"元始智能",第一时间接收 RWKV-7 的最新动态!

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它结合了 Transformer 与 RNN 的优点,同时实现高度并行化训练与高效推理。

欢迎大家加入 RWKV 社区!您可从 RWKV 官网了解 RWKV 模型,也可加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

相关推荐
风象南2 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia3 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮3 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬3 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia4 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区4 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两7 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪7 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232557 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源