RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力

2025 年 9 月 24 日, RWKV7-G1a 2.9B 推理模型开源发布,继续推进纯 RNN 模型的思考能力。

RWKV7-G1a 2.9B 从 RWKV7-G1 2.9B 继续训练 1T tokens 高质量数据,显著提升各方面能力。

模型客观指标评测

英语和多语言能力

RWKV7-G1a 2.9B 的基础英语和多语言能力均强于同规模的开源模型:

作为纯预训练的基底模型,无"刷榜",RWKV7-G1a 2.9B 的 MMLU 提升到 61.1%,MMLU Pro 提升到 31.5%(RWKV7-G1 2.9B 的 MMLU 为 58.0%,MMLU Pro 为 25.8%)。

无法作弊的评测

Uncheatable Eval 是"无法作弊的评测",它使用最新的论文/新闻/代码/小说等实时数据,测试压缩率("压缩即智能"),评估基底语言模型的真实语言建模能力和泛化能力。

RWKV7-G1a 2.9B 的 Uncheatable Eval 继续提升,领先所有 3B 参数量开源模型。

模型实战

多语言能力

翻译问题推荐使用保守的解码参数,此处为:temp=0.2,topp=0.2,presence=0,frequency=0,decay=0.996

RWKV7-G1a 2.9B 同时做多语言翻译:

代码

代码问题推荐使用保守的解码参数,此处为:temp=0.3,topp=0.3,presence=0,frequency=0,decay=0.996

求解最长公共子序列:

设计 LRU 缓存:

数学

数学问题推荐使用保守的解码参数,此处为:temp=0.3,topp=0.3,presence=0,frequency=0,decay=0.996

抛物线问题:

多项式问题:

物理

物理问题推荐使用保守的解码参数,此处为:temp=0.3,topp=0.3,presence=0,frequency=0,decay=0.996

计算火星的重力加速度:

创作

创作问题推荐使用开放的解码参数,此处为:temp=0.6,topp=0.7,presence=2,frequency=0.2,decay=0.99(注意是0.99)

古诗创作:

模型下载

下载 RWKV7-G1a 2.9B 模型:

如何使用 RWKV 模型

我们提供了多个 RWKV-7 模型的在线 demo,也提供本地部署的教程。

在线 demo(聊天模式)

为了方便社区体验 RWKV-G1a 模型,我们提供了聊天模式的在线 demo。

这个 RWKV 对话界面由 RWKV 社区成员 @Leon 开发,并在 GitHub 仓库 web-rwkv-realweb 中开源。

在线 demo(续写模式)

可以在 RWKV 官方 Demo 中试用 RWKV7-G1a 2.9B 模型:

RWKV7-G1a 2.9B 也支持另一种推理风格(支持长度控制),见:RWKV7-G1a 1.5B 开源发布,新推理风格和长度控制,效果显著增强

本地部署

可以使用 RWKV Runner、Ai00、RWKV pip 等推理工具本地部署 RWKV 模型。

此外,RWKV 模型也适配了 llama.cpp、ollama 等热门的模型推理工具。

由于 RWKV7-G1a 2.9B 是新模型,目前建议使用 RWKV Runner 以保证得到正确结果。

可以在 RWKV 官网 - 模型推理教程中查看上述推理工具的使用教程。

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入 RWKV 论坛、QQ 频道和 QQ 群聊,一起探讨 RWKV 模型。

欢迎大家基于 RWKV-7 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。

如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在"RWKV元始智能"微信公众号留言您的联系方式,或发送邮件到"contact@rwkvos.com"。)

相关推荐
shuououo43 分钟前
YOLOv4 核心内容笔记
人工智能·计算机视觉·目标跟踪
DO_Community4 小时前
普通服务器都能跑:深入了解 Qwen3-Next-80B-A3B-Instruct
人工智能·开源·llm·大语言模型·qwen
WWZZ20254 小时前
快速上手大模型:机器学习3(多元线性回归及梯度、向量化、正规方程)
人工智能·算法·机器学习·机器人·slam·具身感知
deephub5 小时前
深入BERT内核:用数学解密掩码语言模型的工作原理
人工智能·深度学习·语言模型·bert·transformer
PKNLP5 小时前
BERT系列模型
人工智能·深度学习·bert
兰亭妙微5 小时前
ui设计公司审美积累 | 金融人工智能与用户体验 用户界面仪表盘设计
人工智能·金融·ux
mortimer6 小时前
零依赖、高效率的语音转文字c++版 whisper.cpp (附批量处理脚本)
开源·github
AKAMAI6 小时前
安全风暴的绝地反击 :从告警地狱到智能防护
运维·人工智能·云计算
岁月宁静6 小时前
深度定制:在 Vue 3.5 应用中集成流式 AI 写作助手的实践
前端·vue.js·人工智能
二宝1526 小时前
黑马商城day4-微服务02
微服务·云原生·架构