RWKV 社区 2 月动态:10 篇新学术论文!

欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 2 月的最新动态。

只需 3 分钟,快速了解 RWKV 社区 2 月都有哪些新鲜事!

2 月动态省流版(TL;DR)

  1. RWKV 学术研究动态

    • 新论文:Activation Sparsity in Recurrent LLMs(RWKV 能效神经形态计算)
    • 新论文:SNAP(RWKV 混合神经网络架构)
    • 新论文:ARWKV(从 DeepSeek 快速迁移到 RWKV 架构)
    • 新论文:OmniRWKVSR(RWKV 图像超分辨率)
    • 新论文:ET_MGNN(RWKV 脑部疾病诊断)
    • 新论文:RWKV-UI(RWKV 高分辨率用户界面理解)
    • 新论文:RWKV-Among-Us(RWKV 多智能体强化学习)
    • 新论文:LALIC(RWKV 图像压缩)
    • 新论文:RWKV 工业缺陷检测
    • 新论文:Rwkv-vg(RWKV 视觉定位)
  2. RWKV 模型新闻动态

    • 新模型: RKWV-7-2.9B
    • 新模型: 新模型:Qwerky-72B
    • 推理模型 G1 系列训练中
  3. RWKV 社区活动

    • RWKV 开发者大会 2025
    • RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

RWKV 学术研究动态

RWKV 学术研究包括基于 RWKV 架构的新论文RWKV 社区参加的学术研究

Activation Sparsity in Recurrent LLMs

  • 论文名称:Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing
  • 论文链接:arxiv.org/abs/2501.16...
  • 发布日期:2025-01-09

论文提出了一种低成本、无需训练的算法,用于稀疏循环大语言模型(R-LLMs)的激活,以实现高效能的神经形态计算。论文以 RWKV 为例展示了该方法的有效性。通过在 RWKV 中添加阈值函数,平均激活稀疏度得以提升。硬件模拟显示出显著的节能和延迟改善,并且该方法还可以扩展到其他模型。

SNAP

  • 论文名称:Learnable Sparsification of Die-to-Die Communication via Spike-Based Encoding
  • 论文链接:arxiv.org/abs/2501.08...
  • 发布日期:2025-01-15

论文提出了 SNAP,一种结合了脉冲神经网络(SNNs)和人工神经网络(ANNs)的混合神经网络架构。为了评估 SNAP,论文将 RWKV 作为代表性的语言模型架构进行集成。

实验表明,SNAP 优于传统的 SNN 和非脉冲模型,实现了高达 5.3 倍的能源效率提升和 15.2 倍的推理延迟降低,凸显了其在大规模人工智能系统中的潜力。

ARWKV

论文提出了 ARWKV:一种基于 RWKV 架构的语言模型,ARWKV 引入 RWKV 的时间混合模块来替代传统 Transformer 中的自注意力机制。该方法旨在提升 RNN 的表达能力和状态跟踪能力,从而超越 Transformer 模型。ARWKV 通过从 Qwen2.5 等 Transformer 模型蒸馏知识到 RNN 中,实现了在有限资源(如单块 A100 GPU 上训练 7B 模型)下的高效训练。

ARWKV 的方法包含三个阶段:

  • 第一阶段:用 RWKV-7 时间混合模块替代自注意力机制,保持了模型的表达能力,同时将架构从 Transformer 转向 RNN。
  • 第二阶段:进行知识蒸馏,将较大的 Transformer 模型(如 Qwen2.5)中的知识转移到基于 RNN 的 ARWKV 模型中。
  • 第三阶段:使用监督微调(SFT)和直接偏好优化(DPO)进一步优化模型,并对用户偏好进行对齐。

该方法融合了 Transformer 和 RNN 架构的优势,展示了 RWKV 在混合架构中的潜力。评估结果显示,ARWKV 在多个基准任务中表现良好。

OmniRWKVSR

  • 论文名称:Exploring Linear Attention Alternative for Single Image Super-Resolution
  • 论文链接:arxiv.org/abs/2502.00...
  • 发布日期:2025-02-01

论文提出 OmniRWKVSR 模型用于单图像超分辨率,结合 RWKV 架构与新型特征提取技术(VRSM 和 VRCM),以解决计算复杂性和重建质量问题。通过利用 RWKV 的线性计算效率及 RNN-Transformer 混合优势,该模型避免了二次注意力计算成本,同时增强多尺度特征捕捉。

实验结果表明其性能优于 MambaIR 和 SwinIR,在 4 倍超分辨率任务中 PSNR 提升 0.26%、SSIM 提升 0.16%,且训练速度加快 15%。研究突显了 RWKV 在平衡效率与图像恢复质量(尤其在遥感应用)中的有效性。

ET_MGNN

  • 论文名称:Multi-Modal Dynamic Brain Graph Representation Learning for Brain Disorder Diagnosis Via Temporal Sequence Model
  • 论文链接:papers.ssrn.com/sol3/papers...
  • 发布日期:2025-02-05

论文提出了用于脑部疾病诊断的 ET_MGNN 模型。该模型整合了多模态脑网络信息,并使用 RWKV 进行动态序列建模。通过融合结构和功能连接性,该模型能够捕捉复杂的脑网络特征。

在 ABIDE II 和 ADNI 等数据集上的实验表明,ET_MGNN 优于其他方法,且 RWKV 在性能提升中发挥了关键作用。

RWKV-UI

  • 论文名称:RWKV-UI: UI Understanding with Enhanced Perception and Reasoning
  • 论文链接:arxiv.org/abs/2502.03...
  • 发布日期:2025-02-06

论文提出 RWKV-UI,一种基于 RWKV 架构的视觉语言模型,专为高分辨率用户界面(UI)理解设计。针对现有视觉语言模型在高分辨率 UI 图像处理中的信息丢失和推理能力不足,该模型集成三种视觉编码器(SIGLIP、DINO、SAM),采用分块编码策略处理 4096×4096 图像并保留细节。结合 RWKV 高效的 RNN 结构,模型引入布局检测和思维链(CoT)视觉提示,增强空间推理和多步交互预测能力。

实验表明其在 UI 理解任务中表现卓越,在动作定位和元素识别等任务上优于更大规模模型,凸显了 RWKV 在多模态场景中的适应性和高效性。

RWKV-Among-Us

  • 论文名称:Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning
  • 论文链接:arxiv.org/abs/2502.06...
  • 发布日期:2025-02-09

论文提出利用多智能体强化学习训练语言模型,使其在无需人类示范的社交推理游戏中实现自然语言沟通。通过结合 "听"(从讨论中推理内鬼身份)和 "说"(奖励能改变他人观点的信息),该方法采用 RWKV 模型 ------ 一种基于线性注意力的循环架构,以高效处理长游戏序列并降低计算负担。

实验表明,基于 RWKV 的智能体胜率是标准强化学习方法的两倍,并展现出基于证据指控等类人策略。RWKV 的选择解决了扩展性和长上下文处理的挑战,对实时多智能体交互至关重要。

LALIC 图像压缩方法

  • 论文名称:Linear Attention Modeling for Learned Image Compressionc
  • 论文链接:arxiv.org/abs/2502.05...
  • 发布日期:2025-02-09

论文提出 LALIC 框架,一种基于 RWKV 的学习型图像压缩方法。通过双向 RWKV(BiWKV)注意力模块和 Omni-Shift 模块,LALIC 以线性复杂度捕捉二维潜在特征的全局依赖与局部上下文。结合 RWKV 空间 - 通道上下文模型(RWKV-SCCTX),该方法进一步利用空间和通道冗余优化熵建模。

实验表明,LALIC 在 Kodak、Tecnick 和 CLIC 数据集上的 BD-rate 性能超越 VTM-9.1 达 17.32%,且计算复杂度低于传统 Transformer 方法。该工作验证了 RWKV 在高分辨率图像压缩中兼顾效率与性能的优势。

RWKV 工业缺陷检测

  • 论文名称:Substation equipment non-rigid defect detection via receptance weighted key value-based causality-aware networks
  • 论文链接:link.springer.com/article/10....
  • 发布日期:2025-02-13

论文提出了一种基于 RWKV 架构的因果感知设备缺陷检测框架,以解决变电站设备中的非刚性缺陷检测和长尾分布问题。RWKV 架构具有全局感受野,可增强缺陷特征提取能力。它与框架中的其他模块相结合。

实验表明,该框架优于基线方法,验证了其有效性。

Rwkv-vg

论文提出 RWKV-VG,一种完全基于 RWKV 架构的视觉定位框架。不同于传统的 CNN 或 Transformer 方法,RWKV-VG 利用 RWKV 结合 RNN 的顺序建模与 Transformer 注意力的混合设计,高效建模模态内和跨模态交互。该框架包含 RWKV 驱动的视觉 / 语言编码器、跨模态解码器及可学习的 [REG] 令牌用于边界框回归。

在 ReferItGame 和 RefCOCO 等基准测试中,其性能超越 TransVG 等 Transformer 方法,精度更高且收敛更快。消融实验验证了 RWKV 模块和 [REG] 令牌位置的关键作用。该工作证实了 RWKV 在视觉 - 语言任务中的竞争力,兼具高效计算与高精度。

RWKV 模型动态

新模型:RKWV-7-2.9B

2025 年 2 月 11 日,RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型(以下简称 RWKV-7-2.9B)。

RWKV-7-2.9B 模型基于 RWKV World V3 数据集训练,英文和多语言能力均显著超越所有同尺寸模型,包括 Llama 3.2 3B、Qwen2.5 3B 等知名优秀开源模型。

可在 Hugging Face Demo 在线体验 RWKV-7-2.9B 模型:huggingface.co/spaces/Blin...

新模型:Qwerky-72B

从 Qwen 2.5 迁移到 RWKV-7 的 Qwerky-72B 现已由海外 RWKV 社区开源:huggingface.co/featherless...

Qwerky-72B 基于海外 RWKV 社区提出的新颖模型迁移方法,可将使用 softmax attention (如 Qwen 和 LLaMA)的大模型用极低的成本(例如在单台 H800 训练几天)快速微调为 RWKV 模型,而无需从头开始预训练。

推理模型 G1 系列训练中

我们正在基于 World v3.5 数据集继续训练 RWKV-7 "Goose" 系列模型(0.1B/0.4B/1.6B/2.9B),并命名为 RWKV7-G1 ("GooseOne")系列推理模型。据测试,最小的 G1 0.1B 就已能实现推理过程。

G1 系列模型的发布计划:

模型 发布计划
G1 0.1B 3 月 8 日
G1 0.4B 3 月下旬
G1 1.6B 4 月
G1 2.9B 5 月

RWKV 社区活动

此版块包含RWKV 官方动态 ,以及RWKV 社区举办或参加的各类活动

RWKV 开发者大会 2025 圆满举办

2025 年 2 月 22 日,RWKV 在上海漕河泾举办了主题为《RWKV-7 与未来趋势》的开发者大会。

来自全国各地的开发者、行业专家和技术创新者齐聚一堂------从知名高校实验室到前沿创业团队,现场涌动的创新能量印证了 RWKV-7 的优秀性能和深远意义。

有关 RWKV 2025 开发者大会的更多信息,可以查看此文章:RWKV 开发者大会 2025:全球数万开发者探讨 RWKV-7 超越 Transformer

RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

2025 年 1 月,活动共收到 RWKV 生态作品投稿 11 份,包括 3 篇论文、7 款应用和 1 篇教程 / 动画。

评审后,共选出金奖 1 项、银奖 4 项、铁奖 2 项

更多信息可参考:RWKV 2025 生态内容征集大赛 | 1 月投稿作品及评审结果

相关推荐
车载诊断技术1 小时前
人工智能AI在汽车设计领域的应用探索
数据库·人工智能·网络协议·架构·汽车·是诊断功能配置的核心
AuGuSt_812 小时前
【深度学习】Hopfield网络:模拟联想记忆
人工智能·深度学习
jndingxin2 小时前
OpenCV计算摄影学(6)高动态范围成像(HDR imaging)
人工智能·opencv·计算机视觉
Sol-itude2 小时前
【文献阅读】Collective Decision for Open Set Recognition
论文阅读·人工智能·机器学习·支持向量机
没事偷着乐琅3 小时前
人工智能 pytorch篇
人工智能·pytorch·python
邪恶的贝利亚3 小时前
Pytorch常用函数
人工智能·pytorch·python
Ironben3 小时前
看好 MCP,但用不了 Claude,所以做了一款 MCP 客户端
人工智能·claude·mcp
佛州小李哥3 小时前
构建逻辑思维链(CoT)为金融AI消除幻觉(保险赔付篇)
人工智能·科技·ai·金融·云计算·aws·亚马逊云科技
柒崽3 小时前
模型上下文协议 (MCP):AI 数据与工具连接的标准化方案
aigc·mcp
xilu04 小时前
MCP与RAG:增强大型语言模型的两种路径
人工智能·llm·mcp