欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 2 月的最新动态。
只需 3 分钟,快速了解 RWKV 社区 2 月都有哪些新鲜事!
2 月动态省流版(TL;DR)
-
RWKV 学术研究动态
- 新论文:Activation Sparsity in Recurrent LLMs(RWKV 能效神经形态计算)
- 新论文:SNAP(RWKV 混合神经网络架构)
- 新论文:ARWKV(从 DeepSeek 快速迁移到 RWKV 架构)
- 新论文:OmniRWKVSR(RWKV 图像超分辨率)
- 新论文:ET_MGNN(RWKV 脑部疾病诊断)
- 新论文:RWKV-UI(RWKV 高分辨率用户界面理解)
- 新论文:RWKV-Among-Us(RWKV 多智能体强化学习)
- 新论文:LALIC(RWKV 图像压缩)
- 新论文:RWKV 工业缺陷检测
- 新论文:Rwkv-vg(RWKV 视觉定位)
-
RWKV 模型新闻动态
- 新模型: RKWV-7-2.9B
- 新模型: 新模型:Qwerky-72B
- 推理模型 G1 系列训练中
-
RWKV 社区活动
- RWKV 开发者大会 2025
- RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果
RWKV 学术研究动态
RWKV 学术研究包括基于 RWKV 架构的新论文 或RWKV 社区参加的学术研究。
Activation Sparsity in Recurrent LLMs
- 论文名称:Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing
- 论文链接:arxiv.org/abs/2501.16...
- 发布日期:2025-01-09
论文提出了一种低成本、无需训练的算法,用于稀疏循环大语言模型(R-LLMs)的激活,以实现高效能的神经形态计算。论文以 RWKV 为例展示了该方法的有效性。通过在 RWKV 中添加阈值函数,平均激活稀疏度得以提升。硬件模拟显示出显著的节能和延迟改善,并且该方法还可以扩展到其他模型。
SNAP
- 论文名称:Learnable Sparsification of Die-to-Die Communication via Spike-Based Encoding
- 论文链接:arxiv.org/abs/2501.08...
- 发布日期:2025-01-15
论文提出了 SNAP,一种结合了脉冲神经网络(SNNs)和人工神经网络(ANNs)的混合神经网络架构。为了评估 SNAP,论文将 RWKV 作为代表性的语言模型架构进行集成。
实验表明,SNAP 优于传统的 SNN 和非脉冲模型,实现了高达 5.3 倍的能源效率提升和 15.2 倍的推理延迟降低,凸显了其在大规模人工智能系统中的潜力。
ARWKV
- 论文名称:ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
- 论文链接:arxiv.org/abs/2501.15...
- Hugging Face 仓库链接: huggingface.co/RWKV-Red-Te...
- 发布日期:2025-01-26
论文提出了 ARWKV:一种基于 RWKV 架构的语言模型,ARWKV 引入 RWKV 的时间混合模块来替代传统 Transformer 中的自注意力机制。该方法旨在提升 RNN 的表达能力和状态跟踪能力,从而超越 Transformer 模型。ARWKV 通过从 Qwen2.5 等 Transformer 模型蒸馏知识到 RNN 中,实现了在有限资源(如单块 A100 GPU 上训练 7B 模型)下的高效训练。
ARWKV 的方法包含三个阶段:
- 第一阶段:用 RWKV-7 时间混合模块替代自注意力机制,保持了模型的表达能力,同时将架构从 Transformer 转向 RNN。
- 第二阶段:进行知识蒸馏,将较大的 Transformer 模型(如 Qwen2.5)中的知识转移到基于 RNN 的 ARWKV 模型中。
- 第三阶段:使用监督微调(SFT)和直接偏好优化(DPO)进一步优化模型,并对用户偏好进行对齐。
该方法融合了 Transformer 和 RNN 架构的优势,展示了 RWKV 在混合架构中的潜力。评估结果显示,ARWKV 在多个基准任务中表现良好。
OmniRWKVSR
- 论文名称:Exploring Linear Attention Alternative for Single Image Super-Resolution
- 论文链接:arxiv.org/abs/2502.00...
- 发布日期:2025-02-01
论文提出 OmniRWKVSR 模型用于单图像超分辨率,结合 RWKV 架构与新型特征提取技术(VRSM 和 VRCM),以解决计算复杂性和重建质量问题。通过利用 RWKV 的线性计算效率及 RNN-Transformer 混合优势,该模型避免了二次注意力计算成本,同时增强多尺度特征捕捉。
实验结果表明其性能优于 MambaIR 和 SwinIR,在 4 倍超分辨率任务中 PSNR 提升 0.26%、SSIM 提升 0.16%,且训练速度加快 15%。研究突显了 RWKV 在平衡效率与图像恢复质量(尤其在遥感应用)中的有效性。
ET_MGNN
- 论文名称:Multi-Modal Dynamic Brain Graph Representation Learning for Brain Disorder Diagnosis Via Temporal Sequence Model
- 论文链接:papers.ssrn.com/sol3/papers...
- 发布日期:2025-02-05
论文提出了用于脑部疾病诊断的 ET_MGNN 模型。该模型整合了多模态脑网络信息,并使用 RWKV 进行动态序列建模。通过融合结构和功能连接性,该模型能够捕捉复杂的脑网络特征。
在 ABIDE II 和 ADNI 等数据集上的实验表明,ET_MGNN 优于其他方法,且 RWKV 在性能提升中发挥了关键作用。
RWKV-UI
- 论文名称:RWKV-UI: UI Understanding with Enhanced Perception and Reasoning
- 论文链接:arxiv.org/abs/2502.03...
- 发布日期:2025-02-06
论文提出 RWKV-UI,一种基于 RWKV 架构的视觉语言模型,专为高分辨率用户界面(UI)理解设计。针对现有视觉语言模型在高分辨率 UI 图像处理中的信息丢失和推理能力不足,该模型集成三种视觉编码器(SIGLIP、DINO、SAM),采用分块编码策略处理 4096×4096 图像并保留细节。结合 RWKV 高效的 RNN 结构,模型引入布局检测和思维链(CoT)视觉提示,增强空间推理和多步交互预测能力。
实验表明其在 UI 理解任务中表现卓越,在动作定位和元素识别等任务上优于更大规模模型,凸显了 RWKV 在多模态场景中的适应性和高效性。
RWKV-Among-Us
- 论文名称:Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning
- 论文链接:arxiv.org/abs/2502.06...
- 发布日期:2025-02-09
论文提出利用多智能体强化学习训练语言模型,使其在无需人类示范的社交推理游戏中实现自然语言沟通。通过结合 "听"(从讨论中推理内鬼身份)和 "说"(奖励能改变他人观点的信息),该方法采用 RWKV 模型 ------ 一种基于线性注意力的循环架构,以高效处理长游戏序列并降低计算负担。
实验表明,基于 RWKV 的智能体胜率是标准强化学习方法的两倍,并展现出基于证据指控等类人策略。RWKV 的选择解决了扩展性和长上下文处理的挑战,对实时多智能体交互至关重要。
LALIC 图像压缩方法
- 论文名称:Linear Attention Modeling for Learned Image Compressionc
- 论文链接:arxiv.org/abs/2502.05...
- 发布日期:2025-02-09
论文提出 LALIC 框架,一种基于 RWKV 的学习型图像压缩方法。通过双向 RWKV(BiWKV)注意力模块和 Omni-Shift 模块,LALIC 以线性复杂度捕捉二维潜在特征的全局依赖与局部上下文。结合 RWKV 空间 - 通道上下文模型(RWKV-SCCTX),该方法进一步利用空间和通道冗余优化熵建模。
实验表明,LALIC 在 Kodak、Tecnick 和 CLIC 数据集上的 BD-rate 性能超越 VTM-9.1 达 17.32%,且计算复杂度低于传统 Transformer 方法。该工作验证了 RWKV 在高分辨率图像压缩中兼顾效率与性能的优势。
RWKV 工业缺陷检测
- 论文名称:Substation equipment non-rigid defect detection via receptance weighted key value-based causality-aware networks
- 论文链接:link.springer.com/article/10....
- 发布日期:2025-02-13
论文提出了一种基于 RWKV 架构的因果感知设备缺陷检测框架,以解决变电站设备中的非刚性缺陷检测和长尾分布问题。RWKV 架构具有全局感受野,可增强缺陷特征提取能力。它与框架中的其他模块相结合。
实验表明,该框架优于基线方法,验证了其有效性。
Rwkv-vg
- 论文名称:Rwkv-vg: visual grounding with RWKV-driven encoder-decoder framework
- 论文链接:link.springer.com/article/10....
- 发布日期:2025-02-21
论文提出 RWKV-VG,一种完全基于 RWKV 架构的视觉定位框架。不同于传统的 CNN 或 Transformer 方法,RWKV-VG 利用 RWKV 结合 RNN 的顺序建模与 Transformer 注意力的混合设计,高效建模模态内和跨模态交互。该框架包含 RWKV 驱动的视觉 / 语言编码器、跨模态解码器及可学习的 [REG] 令牌用于边界框回归。
在 ReferItGame 和 RefCOCO 等基准测试中,其性能超越 TransVG 等 Transformer 方法,精度更高且收敛更快。消融实验验证了 RWKV 模块和 [REG] 令牌位置的关键作用。该工作证实了 RWKV 在视觉 - 语言任务中的竞争力,兼具高效计算与高精度。
RWKV 模型动态
新模型:RKWV-7-2.9B
2025 年 2 月 11 日,RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型(以下简称 RWKV-7-2.9B)。
RWKV-7-2.9B 模型基于 RWKV World V3 数据集训练,英文和多语言能力均显著超越所有同尺寸模型,包括 Llama 3.2 3B、Qwen2.5 3B 等知名优秀开源模型。
可在 Hugging Face Demo 在线体验 RWKV-7-2.9B 模型:huggingface.co/spaces/Blin...
新模型:Qwerky-72B
从 Qwen 2.5 迁移到 RWKV-7 的 Qwerky-72B 现已由海外 RWKV 社区开源:huggingface.co/featherless...
Qwerky-72B 基于海外 RWKV 社区提出的新颖模型迁移方法,可将使用 softmax attention (如 Qwen 和 LLaMA)的大模型用极低的成本(例如在单台 H800 训练几天)快速微调为 RWKV 模型,而无需从头开始预训练。
推理模型 G1 系列训练中
我们正在基于 World v3.5 数据集继续训练 RWKV-7 "Goose" 系列模型(0.1B/0.4B/1.6B/2.9B),并命名为 RWKV7-G1 ("GooseOne")系列推理模型。据测试,最小的 G1 0.1B 就已能实现推理过程。
G1 系列模型的发布计划:
模型 | 发布计划 |
---|---|
G1 0.1B | 3 月 8 日 |
G1 0.4B | 3 月下旬 |
G1 1.6B | 4 月 |
G1 2.9B | 5 月 |
RWKV 社区活动
此版块包含RWKV 官方动态 ,以及RWKV 社区举办或参加的各类活动。
RWKV 开发者大会 2025 圆满举办
2025 年 2 月 22 日,RWKV 在上海漕河泾举办了主题为《RWKV-7 与未来趋势》的开发者大会。
来自全国各地的开发者、行业专家和技术创新者齐聚一堂------从知名高校实验室到前沿创业团队,现场涌动的创新能量印证了 RWKV-7 的优秀性能和深远意义。
有关 RWKV 2025 开发者大会的更多信息,可以查看此文章:RWKV 开发者大会 2025:全球数万开发者探讨 RWKV-7 超越 Transformer
RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果
2025 年 1 月,活动共收到 RWKV 生态作品投稿 11 份,包括 3 篇论文、7 款应用和 1 篇教程 / 动画。
评审后,共选出金奖 1 项、银奖 4 项、铁奖 2 项。