RWKV-7:极先进的大模型架构,长文本能力极强

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。

RWKV-7 架构性能表现

RWKV-7 的大海捞针测试

RWKV-7-World 0.1B(L12-D768)在 ctx 4k 预训练 1T tokens(world-v2.8),无需任何微调,即可完美通过 ctx 16k 的大海捞针。且 world 系列模型支持全球 100+ 种语言和代码。

RWKV-7-Pile 0.4B(L24-D1024)在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可完美通过 ctx 16k 的大海捞针。

RWKV-7 的长文本外推测试

RWKV-7-Pile 系列模型,在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可自动外推到 ctx 32k+ 长度,且 ppl 随 ctx 增加持续稳步下降,说明还远未达到它的外推极限。

下面是 RWKV-7 与 Mamba 的对比,所有模型(除-slimpj)都是在 Pile 训练:

评测代码由社区完成:github.com/Jellyfish04...

Pile 模型横向评测

我们对多款 Pile 模型 进行了综合测评。这里的所有模型,基于相同的 EleutherAI/pile 数据集训练,并使用相同的分词器(tokenizer)进行推理,所以是真正公平公正的模型性能对比。

我们对比了以下模型,涵盖 0.1B、0.4B、1.5B 三种参数:

  • RWKV-7 "Goose"(例如 L12-D768, lr 8e-4 to 3e-5 cosine decay, wd 0.1, bsz 8x30x4096,随机初始化。我们没有使用任何"技巧"提升性能,训练过程非常稳定,无任何毛刺,完全可复现,欢迎联系我们复现)
  • RWKV-4 "Dove"
  • Mamba(我们发现 Mamba 在实际训练中很不稳定,这里使用的是他们提供的模型,我们无法验证他们是否使用了"技巧"提升性能)
  • Pythia

从评测结果,可见 RWKV-7-Pile 在各项英文和多语言测试中,都拥有显著优势:

注意 RWKV-7 拥有显著更强的 ReCoRD 评分,这是长文本材料问答任务,表明 RWKV-7 能够更好地理解和使用长文本的信息。

此外,我们训练了两个"深窄"(更多的层数和更小的维度)的 RWKV-7-Pile 0.1B 模型 ,分别是 L25-D576 和 L33-D512,它们的综合性能更强:

这表明 RWKV 架构可通过使用"深窄"尺寸,进一步提升性能。

0.1B 模型横向评测

RWKV-7-World-0.1B 是全球最强的 0.1B 多语言模型,在 world-2.8(1T tokens)数据训练后,拥有一流的英文能力,且多语言能力显著超越所有 0.1B 模型,支持全球 100+ 种语言和代码。

注意 RWKV-7-World-0.1B 在模型设计上保持 L12-D768 尺寸,而非 SmolLM2 的 L30-D576 尺寸。更少的神经网络层数(L12)使得 RWKV-7 的速度更快,更适合边缘设备等资源受限的推理场景,而且微调训练所需的数据和计算资源也更低。

这里的所有 RWKV 模型均已开源发布:HuggingFace 下载链接

RWKV-7-World-0.1B 生成案例

作为仅 0.1B 参数的 L12-D768 小模型,RWKV-7-World-0.1B 拥有超越其尺寸的综合能力。以下是 RWKV-7-World-0.1B 的生成案例(使用 RWKV-Runner 运行):

![multilang-case-jpn](files.mdnice.com/user/69593/... =90%x)

![multilang-case-chn-novel](files.mdnice.com/user/69593/... =85%x)

其中的部分生成内容不准确,但考虑到,这是一个 0.1B L12-D768 的基底模型,尚未做任何 post-training,其性能可谓令人惊讶。

在 Huggingface Gradio Demo 测试 RWKV-7-World 0.1B

我们正在训练更大参数的 RWKV-7 模型,具体的发布计划请见后文。

RWKV-7 架构介绍

RWKV-7 采用了动态状态演化(Dynamic State Evolution),超越了 attention / linear attention 范式 TC0 表达能力的根本限制。RWKV-7 拥有 NC1 的表达能力,使其可以解决许多 attention 无法解决的问题。

简单地说,传统注意力机制(如 Transformer 的 QKV-softmax-attention)会将多个 { <math xmlns="http://www.w3.org/1998/Math/MathML"> k , v k, v </math>k,v}(key 和 value 的向量对)存储起来,通过 q(query,查询向量)去匹配 key,得到对应的 value 输出。

RWKV-7 不直接存储 { <math xmlns="http://www.w3.org/1998/Math/MathML"> k , v k, v </math>k,v} 对,而是通过动态计算更新 state,从上下文动态学习 key 和 value 之间的关系,再使用更新后的 state 处理新的输入 <math xmlns="http://www.w3.org/1998/Math/MathML"> q q </math>q(在 RWKV 中是 <math xmlns="http://www.w3.org/1998/Math/MathML"> r r </math>r) 并得到输出。

具体而言,RWKV-7 模型拥有一个内部模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> v ≈ k S ⊤ v ≈ k S^\top </math>v≈kS⊤ 。它需要拟合一个简单的目标:对于给定的两个向量序列 { <math xmlns="http://www.w3.org/1998/Math/MathML"> k t k_t </math>kt} 和 { <math xmlns="http://www.w3.org/1998/Math/MathML"> v t v_t </math>vt},通过 <math xmlns="http://www.w3.org/1998/Math/MathML"> S S </math>S(state)把 <math xmlns="http://www.w3.org/1998/Math/MathML"> k i k_i </math>ki 转化为 <math xmlns="http://www.w3.org/1998/Math/MathML"> v i v_i </math>vi ,输出的 <math xmlns="http://www.w3.org/1998/Math/MathML"> v v </math>v 需要和目标的 <math xmlns="http://www.w3.org/1998/Math/MathML"> v v </math>v 尽量接近。

为实现这个目标,RWKV-7 在推理时,对于 L2 损失函数 <math xmlns="http://www.w3.org/1998/Math/MathML"> L = 1 2 ∥ v − k S ⊤ ∥ 2 \mathcal{L} = \frac{1}{2} \| v - k S^\top \|^2 </math>L=21∥v−kS⊤∥2 自动模拟出动态的梯度下降,以此来持续训练内部模型 <math xmlns="http://www.w3.org/1998/Math/MathML"> v ≈ k S ⊤ v ≈ kS^\top </math>v≈kS⊤。

因此,RWKV-7 是一个真正的持续学习模型。

有关 RWKV-7 的更详细设计思路(公式、伪代码等),请查看文章:RWKV-7 as a meta-in-context learner,从第一性原理真正理解

这种动态 State 演化机制,使得 RWKV-7 更擅长处理长上下文内容,拥有显著更强的长文本能力,且生成的内容更少出现自我重复,比各种 Transformer 和 RWKV-6 版本看上去更有连贯的思路。

RWKV-7 的架构图:

![rwkv-7-architecture](files.mdnice.com/user/69593/... =70%x)

RWKV-7 的训练和推理

RWKV-7 架构的训练和推理代码均已定稿,架构论文正在由彭博和社区成员联合撰写,欢迎大家参与,可在 EleutherAI 的 Discord 搜索 RWKV-papers 频道。

RWKV-7 训练代码可在 RWKV-LM 仓库中查看,RWKV-PEFT 项目已支持微调 RWKV-7 模型。

推理方面,RWKV pip 0.8.28 版本、web-rwkvAi00RWKV Runner 等 RWKV 推理工具均已支持 RWKV-7 模型。

RWKV-7 模型发布计划

我们正在训练更大的 RWKV-7-World 模型,路线图如下:

模型 数据集 计划发布日期
RWKV-7-0.4B World-v2.9(2T) 2025年1月上旬
RWKV-7-1.5B World-v3(3.1T) 2025年1月下旬
RWKV-7-2.9B World-v3(3.1T) 2025年2月中旬

请关注我们的公众号"元始智能",第一时间接收 RWKV-7 的最新动态!

加入 RWKV 社区

RWKV 是一种创新的深度学习网络架构,它结合了 Transformer 与 RNN 的优点,同时实现高度并行化训练与高效推理。

欢迎大家加入 RWKV 社区!您可从 RWKV 官网了解 RWKV 模型,也可加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。

相关推荐
QQ676580089 分钟前
智慧工厂之扬尘识别 铲车装载识别 工程重型机械识别 磁铁识别 深度学习YOLO格式图像识别第10435期
人工智能·深度学习·yolo·扬尘识别·铲车装载·工程重型机械·磁铁识别
Raink老师13 分钟前
【AI面试临阵磨枪】KV Cache 是什么?为什么能加速推理?如何实现?
人工智能·ai 面试
nix.gnehc15 分钟前
大模型全流程入门解析——从理论基础到推理落地
llm·推理·vllm·sglang
newsxun1 小时前
第十六届北京国际电影节东郎分会场启幕
人工智能
大嘴皮猴儿1 小时前
从零开始学商品图翻译:小白也能快速掌握的多语言文字处理与上架技巧
大数据·ide·人工智能·macos·新媒体运营·xcode·自动翻译
大黄说说1 小时前
AI大模型对内容创作的颠覆:机遇、版权争议与行业新规则
人工智能
captain_AIouo1 小时前
OZON航海引领者Captain AI指引运营新航向
大数据·人工智能·经验分享·aigc
AI医影跨模态组学1 小时前
PLOS Medicine 中山大学肿瘤防治中心蔡木炎等团队:基于多视角深度学习的组织病理学分析用于II期结直肠癌的预后与治疗分层
人工智能·深度学习·论文·医学·医学影像
起个名字总是说已存在1 小时前
github开源AI技能:Awesome DESIGN.md让页面设计无限可能
人工智能·开源·github
Aray12341 小时前
大模型推理全栈技术解析:从Transformer到RoPE/YaRN的上下文优化
人工智能·深度学习·transformer