RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力

2025 年 9 月 24 日, RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力。

RWKV7-G1a 2.9B 从 RWKV7-G1 2.9B 继续训练 1T tokens 高质量数据,显著提升各方面能力。

模型客观指标评测

英语和多语言能力

RWKV7-G1a 2.9B 的基础英语和多语言能力均强于同规模的开源模型:

作为纯预训练的基底模型,无"刷榜",RWKV7-G1a 2.9B 的 MMLU 提升到 61.1%,MMLU Pro 提升到 31.5%(RWKV7-G1 2.9B 的 MMLU 为 58.0%,MMLU Pro 为 25.8%)。

无法作弊的评测

Uncheatable Eval 是"无法作弊的评测",它使用最新的论文/新闻/代码/小说等实时数据,测试压缩率("压缩即智能"),评估基底语言模型的真实语言建模能力和泛化能力。

RWKV7-G1a 2.9B 的 Uncheatable Eval 继续提升,领先所有 3B 参数量开源模型。

模型实战

多语言能力

翻译问题推荐使用保守的解码参数,此处为:temp=0.2,topp=0.2,presence=0,frequency=0,decay=0.996

RWKV7-G1a 2.9B 同时做多语言翻译:

代码

代码问题推荐使用保守的解码参数,此处为:temp=0.3,topp=0.3,presence=0,frequency=0,decay=0.996

求解最长公共子序列:

设计 LRU 缓存:

数学

数学问题推荐使用保守的解码参数,此处为:temp=0.3,topp=0.3,presence=0,frequency=0,decay=0.996

抛物线问题:

多项式问题:

物理

物理问题推荐使用保守的解码参数,此处为:temp=0.3,topp=0.3,presence=0,frequency=0,decay=0.996

计算火星的重力加速度:

创作

创作问题推荐使用开放的解码参数,此处为:temp=0.6,topp=0.7,presence=2,frequency=0.2,decay=0.99(注意是0.99)

古诗创作:

模型下载

下载 RWKV7-G1a 2.9B 模型:

如何使用 RWKV 模型

我们提供了多个 RWKV-7 模型的在线 demo,也提供本地部署的教程。

在线 demo(聊天模式)

为了方便社区体验 RWKV-G1a 模型,我们提供了聊天模式的在线 demo。

这个 RWKV 对话界面由 RWKV 社区成员 @Leon 开发,并在 GitHub 仓库 web-rwkv-realweb 中开源。

在线 demo(续写模式)

可以在 RWKV 官方 Demo 中试用 RWKV7-G1a 2.9B 模型:

RWKV7-G1a 2.9B 也支持另一种推理风格(支持长度控制),见:RWKV7-G1a 1.5B 开源发布,新推理风格和长度控制,效果显著增强

本地部署

可以使用 RWKV Runner、Ai00、RWKV pip 等推理工具本地部署 RWKV 模型。

此外,RWKV 模型也适配了 llama.cpp、ollama 等热门的模型推理工具。

由于 RWKV7-G1a 2.9B 是新模型,目前建议使用 RWKV Runner 以保证得到正确结果。

可以在 RWKV 官网 - 模型推理教程中查看上述推理工具的使用教程。

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。

欢迎大家基于 RWKV-7 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。

如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在"RWKV元始智能"微信公众号留言您的联系方式,或发送邮件到"contact@rwkvos.com"。)

相关推荐
Coder_Boy_19 分钟前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
啊森要自信24 分钟前
CANN ops-cv:面向计算机视觉的 AI 硬件端高效算子库核心架构与开发逻辑
人工智能·计算机视觉·架构·cann
2401_8362358627 分钟前
中安未来SDK15:以AI之眼,解锁企业档案的数字化基因
人工智能·科技·深度学习·ocr·生活
njsgcs31 分钟前
llm使用 AgentScope-Tuner 通过 RL 训练 FrozenLake 智能体
人工智能·深度学习
董董灿是个攻城狮36 分钟前
AI 视觉连载2:灰度图
人工智能
yunfuuwqi1 小时前
OpenClaw✅真·喂饭级教程:2026年OpenClaw(原Moltbot)一键部署+接入飞书最佳实践
运维·服务器·网络·人工智能·飞书·京东云
九河云1 小时前
5秒开服,你的应用部署还卡在“加载中”吗?
大数据·人工智能·安全·机器学习·华为云
2的n次方_2 小时前
CANN ascend-transformer-boost 架构解析:融合注意力算子管线、长序列分块策略与图引擎协同机制
深度学习·架构·transformer
人工智能培训2 小时前
具身智能视觉、触觉、力觉、听觉等信息如何实时对齐与融合?
人工智能·深度学习·大模型·transformer·企业数字化转型·具身智能