RWKV 社区 2 月动态:10 篇新学术论文!

欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 2 月的最新动态。

只需 3 分钟,快速了解 RWKV 社区 2 月都有哪些新鲜事!

2 月动态省流版(TL;DR)

  1. RWKV 学术研究动态

    • 新论文:Activation Sparsity in Recurrent LLMs(RWKV 能效神经形态计算)
    • 新论文:SNAP(RWKV 混合神经网络架构)
    • 新论文:ARWKV(从 DeepSeek 快速迁移到 RWKV 架构)
    • 新论文:OmniRWKVSR(RWKV 图像超分辨率)
    • 新论文:ET_MGNN(RWKV 脑部疾病诊断)
    • 新论文:RWKV-UI(RWKV 高分辨率用户界面理解)
    • 新论文:RWKV-Among-Us(RWKV 多智能体强化学习)
    • 新论文:LALIC(RWKV 图像压缩)
    • 新论文:RWKV 工业缺陷检测
    • 新论文:Rwkv-vg(RWKV 视觉定位)
  2. RWKV 模型新闻动态

    • 新模型: RKWV-7-2.9B
    • 新模型: 新模型:Qwerky-72B
    • 推理模型 G1 系列训练中
  3. RWKV 社区活动

    • RWKV 开发者大会 2025
    • RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

RWKV 学术研究动态

RWKV 学术研究包括基于 RWKV 架构的新论文RWKV 社区参加的学术研究

Activation Sparsity in Recurrent LLMs

  • 论文名称:Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing
  • 论文链接:arxiv.org/abs/2501.16...
  • 发布日期:2025-01-09

论文提出了一种低成本、无需训练的算法,用于稀疏循环大语言模型(R-LLMs)的激活,以实现高效能的神经形态计算。论文以 RWKV 为例展示了该方法的有效性。通过在 RWKV 中添加阈值函数,平均激活稀疏度得以提升。硬件模拟显示出显著的节能和延迟改善,并且该方法还可以扩展到其他模型。

SNAP

  • 论文名称:Learnable Sparsification of Die-to-Die Communication via Spike-Based Encoding
  • 论文链接:arxiv.org/abs/2501.08...
  • 发布日期:2025-01-15

论文提出了 SNAP,一种结合了脉冲神经网络(SNNs)和人工神经网络(ANNs)的混合神经网络架构。为了评估 SNAP,论文将 RWKV 作为代表性的语言模型架构进行集成。

实验表明,SNAP 优于传统的 SNN 和非脉冲模型,实现了高达 5.3 倍的能源效率提升和 15.2 倍的推理延迟降低,凸显了其在大规模人工智能系统中的潜力。

ARWKV

论文提出了 ARWKV:一种基于 RWKV 架构的语言模型,ARWKV 引入 RWKV 的时间混合模块来替代传统 Transformer 中的自注意力机制。该方法旨在提升 RNN 的表达能力和状态跟踪能力,从而超越 Transformer 模型。ARWKV 通过从 Qwen2.5 等 Transformer 模型蒸馏知识到 RNN 中,实现了在有限资源(如单块 A100 GPU 上训练 7B 模型)下的高效训练。

ARWKV 的方法包含三个阶段:

  • 第一阶段:用 RWKV-7 时间混合模块替代自注意力机制,保持了模型的表达能力,同时将架构从 Transformer 转向 RNN。
  • 第二阶段:进行知识蒸馏,将较大的 Transformer 模型(如 Qwen2.5)中的知识转移到基于 RNN 的 ARWKV 模型中。
  • 第三阶段:使用监督微调(SFT)和直接偏好优化(DPO)进一步优化模型,并对用户偏好进行对齐。

该方法融合了 Transformer 和 RNN 架构的优势,展示了 RWKV 在混合架构中的潜力。评估结果显示,ARWKV 在多个基准任务中表现良好。

OmniRWKVSR

  • 论文名称:Exploring Linear Attention Alternative for Single Image Super-Resolution
  • 论文链接:arxiv.org/abs/2502.00...
  • 发布日期:2025-02-01

论文提出 OmniRWKVSR 模型用于单图像超分辨率,结合 RWKV 架构与新型特征提取技术(VRSM 和 VRCM),以解决计算复杂性和重建质量问题。通过利用 RWKV 的线性计算效率及 RNN-Transformer 混合优势,该模型避免了二次注意力计算成本,同时增强多尺度特征捕捉。

实验结果表明其性能优于 MambaIR 和 SwinIR,在 4 倍超分辨率任务中 PSNR 提升 0.26%、SSIM 提升 0.16%,且训练速度加快 15%。研究突显了 RWKV 在平衡效率与图像恢复质量(尤其在遥感应用)中的有效性。

ET_MGNN

  • 论文名称:Multi-Modal Dynamic Brain Graph Representation Learning for Brain Disorder Diagnosis Via Temporal Sequence Model
  • 论文链接:papers.ssrn.com/sol3/papers...
  • 发布日期:2025-02-05

论文提出了用于脑部疾病诊断的 ET_MGNN 模型。该模型整合了多模态脑网络信息,并使用 RWKV 进行动态序列建模。通过融合结构和功能连接性,该模型能够捕捉复杂的脑网络特征。

在 ABIDE II 和 ADNI 等数据集上的实验表明,ET_MGNN 优于其他方法,且 RWKV 在性能提升中发挥了关键作用。

RWKV-UI

  • 论文名称:RWKV-UI: UI Understanding with Enhanced Perception and Reasoning
  • 论文链接:arxiv.org/abs/2502.03...
  • 发布日期:2025-02-06

论文提出 RWKV-UI,一种基于 RWKV 架构的视觉语言模型,专为高分辨率用户界面(UI)理解设计。针对现有视觉语言模型在高分辨率 UI 图像处理中的信息丢失和推理能力不足,该模型集成三种视觉编码器(SIGLIP、DINO、SAM),采用分块编码策略处理 4096×4096 图像并保留细节。结合 RWKV 高效的 RNN 结构,模型引入布局检测和思维链(CoT)视觉提示,增强空间推理和多步交互预测能力。

实验表明其在 UI 理解任务中表现卓越,在动作定位和元素识别等任务上优于更大规模模型,凸显了 RWKV 在多模态场景中的适应性和高效性。

RWKV-Among-Us

  • 论文名称:Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning
  • 论文链接:arxiv.org/abs/2502.06...
  • 发布日期:2025-02-09

论文提出利用多智能体强化学习训练语言模型,使其在无需人类示范的社交推理游戏中实现自然语言沟通。通过结合 "听"(从讨论中推理内鬼身份)和 "说"(奖励能改变他人观点的信息),该方法采用 RWKV 模型 ------ 一种基于线性注意力的循环架构,以高效处理长游戏序列并降低计算负担。

实验表明,基于 RWKV 的智能体胜率是标准强化学习方法的两倍,并展现出基于证据指控等类人策略。RWKV 的选择解决了扩展性和长上下文处理的挑战,对实时多智能体交互至关重要。

LALIC 图像压缩方法

  • 论文名称:Linear Attention Modeling for Learned Image Compressionc
  • 论文链接:arxiv.org/abs/2502.05...
  • 发布日期:2025-02-09

论文提出 LALIC 框架,一种基于 RWKV 的学习型图像压缩方法。通过双向 RWKV(BiWKV)注意力模块和 Omni-Shift 模块,LALIC 以线性复杂度捕捉二维潜在特征的全局依赖与局部上下文。结合 RWKV 空间 - 通道上下文模型(RWKV-SCCTX),该方法进一步利用空间和通道冗余优化熵建模。

实验表明,LALIC 在 Kodak、Tecnick 和 CLIC 数据集上的 BD-rate 性能超越 VTM-9.1 达 17.32%,且计算复杂度低于传统 Transformer 方法。该工作验证了 RWKV 在高分辨率图像压缩中兼顾效率与性能的优势。

RWKV 工业缺陷检测

  • 论文名称:Substation equipment non-rigid defect detection via receptance weighted key value-based causality-aware networks
  • 论文链接:link.springer.com/article/10....
  • 发布日期:2025-02-13

论文提出了一种基于 RWKV 架构的因果感知设备缺陷检测框架,以解决变电站设备中的非刚性缺陷检测和长尾分布问题。RWKV 架构具有全局感受野,可增强缺陷特征提取能力。它与框架中的其他模块相结合。

实验表明,该框架优于基线方法,验证了其有效性。

Rwkv-vg

论文提出 RWKV-VG,一种完全基于 RWKV 架构的视觉定位框架。不同于传统的 CNN 或 Transformer 方法,RWKV-VG 利用 RWKV 结合 RNN 的顺序建模与 Transformer 注意力的混合设计,高效建模模态内和跨模态交互。该框架包含 RWKV 驱动的视觉 / 语言编码器、跨模态解码器及可学习的 [REG] 令牌用于边界框回归。

在 ReferItGame 和 RefCOCO 等基准测试中,其性能超越 TransVG 等 Transformer 方法,精度更高且收敛更快。消融实验验证了 RWKV 模块和 [REG] 令牌位置的关键作用。该工作证实了 RWKV 在视觉 - 语言任务中的竞争力,兼具高效计算与高精度。

RWKV 模型动态

新模型:RKWV-7-2.9B

2025 年 2 月 11 日,RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型(以下简称 RWKV-7-2.9B)。

RWKV-7-2.9B 模型基于 RWKV World V3 数据集训练,英文和多语言能力均显著超越所有同尺寸模型,包括 Llama 3.2 3B、Qwen2.5 3B 等知名优秀开源模型。

可在 Hugging Face Demo 在线体验 RWKV-7-2.9B 模型:huggingface.co/spaces/Blin...

新模型:Qwerky-72B

从 Qwen 2.5 迁移到 RWKV-7 的 Qwerky-72B 现已由海外 RWKV 社区开源:huggingface.co/featherless...

Qwerky-72B 基于海外 RWKV 社区提出的新颖模型迁移方法,可将使用 softmax attention (如 Qwen 和 LLaMA)的大模型用极低的成本(例如在单台 H800 训练几天)快速微调为 RWKV 模型,而无需从头开始预训练。

推理模型 G1 系列训练中

我们正在基于 World v3.5 数据集继续训练 RWKV-7 "Goose" 系列模型(0.1B/0.4B/1.6B/2.9B),并命名为 RWKV7-G1 ("GooseOne")系列推理模型。据测试,最小的 G1 0.1B 就已能实现推理过程。

G1 系列模型的发布计划:

模型 发布计划
G1 0.1B 3 月 8 日
G1 0.4B 3 月下旬
G1 1.6B 4 月
G1 2.9B 5 月

RWKV 社区活动

此版块包含RWKV 官方动态 ,以及RWKV 社区举办或参加的各类活动

RWKV 开发者大会 2025 圆满举办

2025 年 2 月 22 日,RWKV 在上海漕河泾举办了主题为《RWKV-7 与未来趋势》的开发者大会。

来自全国各地的开发者、行业专家和技术创新者齐聚一堂------从知名高校实验室到前沿创业团队,现场涌动的创新能量印证了 RWKV-7 的优秀性能和深远意义。

有关 RWKV 2025 开发者大会的更多信息,可以查看此文章:RWKV 开发者大会 2025:全球数万开发者探讨 RWKV-7 超越 Transformer

RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

2025 年 1 月,活动共收到 RWKV 生态作品投稿 11 份,包括 3 篇论文、7 款应用和 1 篇教程 / 动画。

评审后,共选出金奖 1 项、银奖 4 项、铁奖 2 项

更多信息可参考:RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

相关推荐
AIGC方案8 分钟前
deepseek热度已过?
人工智能·大模型
88号技师9 分钟前
模糊斜率熵Fuzzy Slope entropy+状态分类识别!2024年11月新作登上IEEE Trans顶刊
人工智能·机器学习·分类·数据挖掘·信号处理·故障诊断·信息熵
死磕代码程序媛33 分钟前
谷歌25年春季新课:15小时速成机器学习
人工智能·机器学习
有Li1 小时前
弥合多层次差距:用于超声心动图中基于文本引导的标签高效分割的双向循环框架|文献速递-深度学习医疗AI最新文献
人工智能
橙色小博1 小时前
Transformer模型解析与实例:搭建一个自己的预测语言模型
人工智能·深度学习·神经网络·机器学习·transformer
意.远2 小时前
PyTorch实现二维卷积与边缘检测:从原理到实战
人工智能·pytorch·python·深度学习·神经网络·计算机视觉
电报号dapp1192 小时前
2025年智能合约玩法创新白皮书:九大核心模块与收益模型重构Web3经济范式
人工智能·重构·web3·去中心化·区块链·智能合约
三道杠卷胡2 小时前
【AI News | 20250411】每日AI进展
人工智能·python·计算机视觉·语言模型·aigc
汪子熙2 小时前
利用 Trae 开发平面直角坐标系的教学动画
人工智能·trae
区块链蓝海2 小时前
Cables 现已正式启动积分计划 Alpha 阶段,开放早期白名单申请
人工智能·区块链