RWKV 社区 2 月动态：10 篇新学术论文！

欢迎大家收看《RWKV 社区最新动态》，本期内容收录了 RWKV 社区 2025 年 2 月的最新动态。

只需 3 分钟，快速了解 RWKV 社区 2 月都有哪些新鲜事！

2 月动态省流版（TL;DR）

RWKV 学术研究动态
- 新论文：Activation Sparsity in Recurrent LLMs（RWKV 能效神经形态计算）
- 新论文：SNAP（RWKV 混合神经网络架构）
- 新论文：ARWKV（从 DeepSeek 快速迁移到 RWKV 架构）
- 新论文：OmniRWKVSR（RWKV 图像超分辨率）
- 新论文：ET_MGNN（RWKV 脑部疾病诊断）
- 新论文：RWKV-UI（RWKV 高分辨率用户界面理解）
- 新论文：RWKV-Among-Us（RWKV 多智能体强化学习）
- 新论文：LALIC（RWKV 图像压缩）
- 新论文：RWKV 工业缺陷检测
- 新论文：Rwkv-vg（RWKV 视觉定位）
RWKV 模型新闻动态
- 新模型： RKWV-7-2.9B
- 新模型：新模型：Qwerky-72B
- 推理模型 G1 系列训练中
RWKV 社区活动
- RWKV 开发者大会 2025
- RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

RWKV 学术研究动态

RWKV 学术研究包括基于 RWKV 架构的新论文 或RWKV 社区参加的学术研究。

Activation Sparsity in Recurrent LLMs

论文名称：Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing
论文链接：arxiv.org/abs/2501.16...
发布日期：2025-01-09

论文提出了一种低成本、无需训练的算法，用于稀疏循环大语言模型（R-LLMs）的激活，以实现高效能的神经形态计算。论文以 RWKV 为例展示了该方法的有效性。通过在 RWKV 中添加阈值函数，平均激活稀疏度得以提升。硬件模拟显示出显著的节能和延迟改善，并且该方法还可以扩展到其他模型。

SNAP

论文名称：Learnable Sparsification of Die-to-Die Communication via Spike-Based Encoding
论文链接：arxiv.org/abs/2501.08...
发布日期：2025-01-15

论文提出了 SNAP，一种结合了脉冲神经网络（SNNs）和人工神经网络（ANNs）的混合神经网络架构。为了评估 SNAP，论文将 RWKV 作为代表性的语言模型架构进行集成。

实验表明，SNAP 优于传统的 SNN 和非脉冲模型，实现了高达 5.3 倍的能源效率提升和 15.2 倍的推理延迟降低，凸显了其在大规模人工智能系统中的潜力。

ARWKV

论文名称：ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
论文链接：arxiv.org/abs/2501.15...
Hugging Face 仓库链接: huggingface.co/RWKV-Red-Te...
发布日期：2025-01-26

论文提出了 ARWKV：一种基于 RWKV 架构的语言模型，ARWKV 引入 RWKV 的时间混合模块来替代传统 Transformer 中的自注意力机制。该方法旨在提升 RNN 的表达能力和状态跟踪能力，从而超越 Transformer 模型。ARWKV 通过从 Qwen2.5 等 Transformer 模型蒸馏知识到 RNN 中，实现了在有限资源（如单块 A100 GPU 上训练 7B 模型）下的高效训练。

ARWKV 的方法包含三个阶段：

第一阶段：用 RWKV-7 时间混合模块替代自注意力机制，保持了模型的表达能力，同时将架构从 Transformer 转向 RNN。
第二阶段：进行知识蒸馏，将较大的 Transformer 模型（如 Qwen2.5）中的知识转移到基于 RNN 的 ARWKV 模型中。
第三阶段：使用监督微调（SFT）和直接偏好优化（DPO）进一步优化模型，并对用户偏好进行对齐。

该方法融合了 Transformer 和 RNN 架构的优势，展示了 RWKV 在混合架构中的潜力。评估结果显示，ARWKV 在多个基准任务中表现良好。

OmniRWKVSR

论文名称：Exploring Linear Attention Alternative for Single Image Super-Resolution
论文链接：arxiv.org/abs/2502.00...
发布日期：2025-02-01

论文提出 OmniRWKVSR 模型用于单图像超分辨率，结合 RWKV 架构与新型特征提取技术（VRSM 和 VRCM），以解决计算复杂性和重建质量问题。通过利用 RWKV 的线性计算效率及 RNN-Transformer 混合优势，该模型避免了二次注意力计算成本，同时增强多尺度特征捕捉。

实验结果表明其性能优于 MambaIR 和 SwinIR，在 4 倍超分辨率任务中 PSNR 提升 0.26%、SSIM 提升 0.16%，且训练速度加快 15%。研究突显了 RWKV 在平衡效率与图像恢复质量（尤其在遥感应用）中的有效性。

ET_MGNN

论文名称：Multi-Modal Dynamic Brain Graph Representation Learning for Brain Disorder Diagnosis Via Temporal Sequence Model
论文链接：papers.ssrn.com/sol3/papers...
发布日期：2025-02-05

论文提出了用于脑部疾病诊断的 ET_MGNN 模型。该模型整合了多模态脑网络信息，并使用 RWKV 进行动态序列建模。通过融合结构和功能连接性，该模型能够捕捉复杂的脑网络特征。

在 ABIDE II 和 ADNI 等数据集上的实验表明，ET_MGNN 优于其他方法，且 RWKV 在性能提升中发挥了关键作用。

RWKV-UI

论文名称：RWKV-UI: UI Understanding with Enhanced Perception and Reasoning
论文链接：arxiv.org/abs/2502.03...
发布日期：2025-02-06

论文提出 RWKV-UI，一种基于 RWKV 架构的视觉语言模型，专为高分辨率用户界面（UI）理解设计。针对现有视觉语言模型在高分辨率 UI 图像处理中的信息丢失和推理能力不足，该模型集成三种视觉编码器（SIGLIP、DINO、SAM），采用分块编码策略处理 4096×4096 图像并保留细节。结合 RWKV 高效的 RNN 结构，模型引入布局检测和思维链（CoT）视觉提示，增强空间推理和多步交互预测能力。

实验表明其在 UI 理解任务中表现卓越，在动作定位和元素识别等任务上优于更大规模模型，凸显了 RWKV 在多模态场景中的适应性和高效性。

RWKV-Among-Us

论文名称：Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning
论文链接：arxiv.org/abs/2502.06...
发布日期：2025-02-09

论文提出利用多智能体强化学习训练语言模型，使其在无需人类示范的社交推理游戏中实现自然语言沟通。通过结合 "听"（从讨论中推理内鬼身份）和 "说"（奖励能改变他人观点的信息），该方法采用 RWKV 模型 ------ 一种基于线性注意力的循环架构，以高效处理长游戏序列并降低计算负担。

实验表明，基于 RWKV 的智能体胜率是标准强化学习方法的两倍，并展现出基于证据指控等类人策略。RWKV 的选择解决了扩展性和长上下文处理的挑战，对实时多智能体交互至关重要。

LALIC 图像压缩方法

论文名称：Linear Attention Modeling for Learned Image Compressionc
论文链接：arxiv.org/abs/2502.05...
发布日期：2025-02-09

论文提出 LALIC 框架，一种基于 RWKV 的学习型图像压缩方法。通过双向 RWKV（BiWKV）注意力模块和 Omni-Shift 模块，LALIC 以线性复杂度捕捉二维潜在特征的全局依赖与局部上下文。结合 RWKV 空间 - 通道上下文模型（RWKV-SCCTX），该方法进一步利用空间和通道冗余优化熵建模。

实验表明，LALIC 在 Kodak、Tecnick 和 CLIC 数据集上的 BD-rate 性能超越 VTM-9.1 达 17.32%，且计算复杂度低于传统 Transformer 方法。该工作验证了 RWKV 在高分辨率图像压缩中兼顾效率与性能的优势。

RWKV 工业缺陷检测

论文名称：Substation equipment non-rigid defect detection via receptance weighted key value-based causality-aware networks
论文链接：link.springer.com/article/10....
发布日期：2025-02-13

论文提出了一种基于 RWKV 架构的因果感知设备缺陷检测框架，以解决变电站设备中的非刚性缺陷检测和长尾分布问题。RWKV 架构具有全局感受野，可增强缺陷特征提取能力。它与框架中的其他模块相结合。

实验表明，该框架优于基线方法，验证了其有效性。

Rwkv-vg

论文名称：Rwkv-vg: visual grounding with RWKV-driven encoder-decoder framework
论文链接：link.springer.com/article/10....
发布日期：2025-02-21

论文提出 RWKV-VG，一种完全基于 RWKV 架构的视觉定位框架。不同于传统的 CNN 或 Transformer 方法，RWKV-VG 利用 RWKV 结合 RNN 的顺序建模与 Transformer 注意力的混合设计，高效建模模态内和跨模态交互。该框架包含 RWKV 驱动的视觉 / 语言编码器、跨模态解码器及可学习的 [REG] 令牌用于边界框回归。

在 ReferItGame 和 RefCOCO 等基准测试中，其性能超越 TransVG 等 Transformer 方法，精度更高且收敛更快。消融实验验证了 RWKV 模块和 [REG] 令牌位置的关键作用。该工作证实了 RWKV 在视觉 - 语言任务中的竞争力，兼具高效计算与高精度。

RWKV 模型动态

新模型：RKWV-7-2.9B

2025 年 2 月 11 日，RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型（以下简称 RWKV-7-2.9B）。

RWKV-7-2.9B 模型基于 RWKV World V3 数据集训练，英文和多语言能力均显著超越所有同尺寸模型，包括 Llama 3.2 3B、Qwen2.5 3B 等知名优秀开源模型。

可在 Hugging Face Demo 在线体验 RWKV-7-2.9B 模型：huggingface.co/spaces/Blin...

新模型：Qwerky-72B

从 Qwen 2.5 迁移到 RWKV-7 的 Qwerky-72B 现已由海外 RWKV 社区开源：huggingface.co/featherless...

Qwerky-72B 基于海外 RWKV 社区提出的新颖模型迁移方法，可将使用 softmax attention （如 Qwen 和 LLaMA）的大模型用极低的成本（例如在单台 H800 训练几天）快速微调为 RWKV 模型，而无需从头开始预训练。

推理模型 G1 系列训练中

我们正在基于 World v3.5 数据集继续训练 RWKV-7 "Goose" 系列模型（0.1B/0.4B/1.6B/2.9B），并命名为 RWKV7-G1 （"GooseOne"）系列推理模型。据测试，最小的 G1 0.1B 就已能实现推理过程。

G1 系列模型的发布计划：

模型	发布计划
G1 0.1B	3 月 8 日
G1 0.4B	3 月下旬
G1 1.6B	4 月
G1 2.9B	5 月

RWKV 社区活动

此版块包含RWKV 官方动态 ，以及RWKV 社区举办或参加的各类活动。

RWKV 开发者大会 2025 圆满举办

2025 年 2 月 22 日，RWKV 在上海漕河泾举办了主题为《RWKV-7 与未来趋势》的开发者大会。

来自全国各地的开发者、行业专家和技术创新者齐聚一堂------从知名高校实验室到前沿创业团队，现场涌动的创新能量印证了 RWKV-7 的优秀性能和深远意义。

有关 RWKV 2025 开发者大会的更多信息，可以查看此文章：RWKV 开发者大会 2025：全球数万开发者探讨 RWKV-7 超越 Transformer

RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

2025 年 1 月，活动共收到 RWKV 生态作品投稿 11 份，包括 3 篇论文、7 款应用和 1 篇教程 / 动画。

评审后，共选出金奖 1 项、银奖 4 项、铁奖 2 项。