胡桃讲编程:麻宫雅典娜 15 RVCv2 第二代(R2)完整开源发布文档

作者 :龙沅可

温馨提示:本项目为非官方同人二创作品,全程秉持公益开源原则,无任何商业运营行为。请所有使用者严格遵守国家法律法规与开源协议,合理运用本套开源模型与技术资源,坚决杜绝非法用途与违规使用行为。本模型原 IP 版权归 SNK 所有,仅用于技术交流、个人学习与非盈利同人创作。

一、项目整体介绍与发布信息

随着 AI 语音合成技术不断普及,RVC 凭借轻量化、易上手、音色还原度出色等优势,成为广大音频爱好者、技术玩家进行语音转换、歌声合成的主流工具。但不少入门用户受限于老旧显卡、小显存设备,难以流畅运行高精度 RVC 模型。为此,柴框云智算・低配卡 RVC 公益开源项目 持续深耕低配置设备适配领域,本次正式推出麻宫雅典娜 15 RVCv2 第二代(R2)国语声库,该版本是在初代麻宫雅典娜 RVCv2 轻量模型的基础上全面迭代优化而来,由龙洛工作室主导完成模型训练、参数调优与兼容性适配工作,核心目标是让 4GB 显存及以下的低配电脑、老旧显卡,甚至纯 CPU 设备都能稳定、流畅地使用高精度 AI 声库。

本版本定位为公益开源声库,面向全体技术爱好者免费开放下载与使用,兼顾音色品质、运行稳定性与多平台适配能力,同时优化了推理参数与算法逻辑,进一步降低硬件门槛。以下为项目完整配套文件、下载链接与基础信息说明:

  1. 项目全称:柴云智算 - 虚拟歌手・麻宫雅典娜 15R2 国语声库(公益开源版 RVCv2 第二代)
  2. 开源下载链接https://115cdn.com/s/swshwg73nam?password=qe46
  3. 全套配套文件清单
    • 核心模型权重:Athena Asamiya15R2.pth(原始权重文件:G_500.pth
    • 特征索引文件:Athena Asamiya15R2.index(原始索引文件:added_IVF145_Flat_nprobe_1_Athena15R2_v2.index
    • 底层配置文件:config.json
    • 配套文档:麻宫雅典娜 15R2 - 使用说明书.txt
  4. 版权声明:拳皇 15 及麻宫雅典娜 IP 版权归属 SNK,本模型为非商用公益二创成果,仅用于技术交流、个人娱乐与非盈利创作,不涉及任何商业授权与商业变现。

二、版本迭代亮点与声库定位

相较于初代 GTX 1050 Ti 本地训练的轻量模型,本次 R2 第二代版本在算法、算力、兼容性、运行效率四大维度完成全面升级,针对性解决低配设备卡顿、音色断层、平台适配单一等问题。两者详细对比信息如下表所示:

表格

优化方向 初代版本 R2 第二代版本
推理采样率 40kHz 主推 24kHz,大幅降低硬件负载,低配设备延迟更低
音高提取算法 pm(首相算法) 升级为主流 RMVPE 算法,新增 MVPE_GPU 预留算法,音准表现更优秀
平台适配范围 仅支持主流 RVC 版本 全系列 RVC 版本兼容,新增流明平台接入能力,使用场景更广
训练硬件环境 GTX 1050 Ti 本地训练 RTX 4090 + 云 RVC AutuDL 云端联合训练,音色精度与细节还原度显著提升
运行模式兼容 仅支持 GPU 推理 CPU/GPU 双端通用,完美适配 4GB 及以下老旧显卡,无硬件限制
检索特征参数 无固定配比,音色一致性较差 固定检索特征占比 0.78,全程音色统一,避免转换失真

在声线风格与创作适配层面,本声库高度还原《拳皇 15》中麻宫雅典娜标志性的清亮少女音,经过多轮调优后,中高音区稳定性大幅增强,气声过渡自然,人声咬字清晰饱满。曲风适配范围十分广泛,可应用于 ACG 内容创作、游戏同人配音、热血流行翻唱、治愈抒情歌曲、国风音乐以及轻摇滚等场景,是低配设备用户开展非商用语音合成、歌声转换、同人配音的优质选择。

三、全套参数明细(训练 + 推理)

参数是保障模型稳定运行、音色正常输出的核心,本章节分为底层配置、训练参数、推理参数三部分,所有参数均经过实测验证,非专业开发者请勿随意修改。

(一)全局训练配置 config.json

该配置文件定义了模型网络结构、音频参数、训练规则等底层逻辑,直接决定模型基础性能,部署与使用过程中建议保持默认设置。

json

复制代码
{
  "train": {
    "log_interval": 200,
    "seed": 1234,
    "epochs": 20000,
    "learning_rate": 1e-4,
    "betas": [0.8, 0.99],
    "eps": 1e-9,
    "batch_size": 4,
    "fp16_run": true,
    "lr_decay": 0.999875,
    "segment_size": 12800,
    "init_lr_ratio": 1,
    "warmup_epochs": 0,
    "c_mel": 45,
    "c_kl": 1.0
  },
  "data": {
    "max_wav_value": 32768.0,
    "sampling_rate": 40000,
    "filter_length": 2048,
    "hop_length": 400,
    "win_length": 2048,
    "n_mel_channels": 125,
    "mel_fmin": 0.0,
    "mel_fmax": null
  },
  "model": {
    "inter_channels": 192,
    "hidden_channels": 192,
    "filter_channels": 768,
    "n_heads": 2,
    "n_layers": 6,
    "kernel_size": 3,
    "p_dropout": 0,
    "resblock": "1",
    "resblock_kernel_sizes": [3,7,11],
    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
    "upsample_rates": [10,10,2,2],
    "upsample_initial_channel": 512,
    "upsample_kernel_sizes": [16,16,4,4],
    "use_spectral_norm": false,
    "gin_channels": 256,
    "spk_embed_dim": 109
  }
}

(二)核心训练参数

本模型全程从零训练,未加载任何预训练底模,训练数据与硬件参数如下:

  1. 基础标识:实验名Athena Asamiya15R2,RVC v2 版本,单人模型说话人 ID 固定为 0,音高指导功能默认开启;
  2. 训练规则:原生采样率 40kHz,总计训练 100 轮,每 50 轮自动保存模型文件,CPU 进程数设置为 86 以提升音频处理效率,全程关闭显存缓存,规避小显存溢出问题;
  3. 数据集:素材截取于《拳皇 15》原版游戏语音,使用万兴喵影完成录制、转码与切片,共 20 段音频,单段时长 5 秒,统一处理为标准单声道 WAV 格式。使用前建议对输入音频做标准化处理,防止音准偏移、咬字模糊等问题。

(三)官方推荐推理参数(必设)

为保证音色还原度与运行稳定性,不同硬件设备请严格遵循以下参数配置:

  1. 通用基础参数:推理采样率 24kHz、音高算法选择 RMVPE、检索特征占比 0.78、音高指导开启、batch_size 设置为 1;
  2. 硬件适配方案:8GB 及以上显存显卡可自由选择 CPU 或 GPU 推理;4GB 及以下老旧显卡务必保持 batch_size=1 并关闭显存缓存;纯 CPU 推理无需额外调整参数,仅推理速度略有下降,音色不受影响。

四、模型部署教程(适配全版本 RVC WebUI)

本模型兼容市面上所有版本的 RVC WebUI,同时支持流明平台导入,部署流程简单易操作,新手也可快速上手:

  1. 文件放置 :将Athena Asamiya15R2.pth复制到 RVC 根目录weights文件夹;将索引文件放入logs/Athena Asamiya15R2/目录,无对应文件夹可手动新建;将config.json替换至软件配置目录。
  2. 加载验证 :启动 RVC WebUI,在模型下拉菜单选中Athena Asamiya15R2,索引文件会自动匹配加载,加载完成即可开展语音、歌声转换工作。
  3. 跨平台使用:如需在流明平台使用,直接导入模型文件并沿用上述推理参数即可。

五、开源规范、使用准则与公测说明

1. 使用权限划分

允许个人免费使用、非商用翻唱、同人创作、技术交流、非盈利分享与参数二次调优;严禁用于商业盈利、收费分发、模型倒卖、反编译拆解、音色提取以及闭源二次发布等行为。

2. 内容创作规范

禁止利用本模型生成违法、暴力、色情、低俗及侵权内容,所有使用者需自行承担违规使用带来的法律责任。若公开发布基于本模型的作品,必须标注:歌手:麻宫雅典娜 15R2(柴框云公益开源)

3. 公测反馈渠道

目前麻宫雅典娜 15R2 声库处于公益公测阶段,若大家在使用过程中遇到音色异常、音准偏差、设备卡顿等问题,可通过 B 站、CSDN、项目官方网站留言反馈,团队将根据反馈持续迭代优化版本。

六、版本选择参考建议

结合硬件配置与使用场景,为大家提供选型参考:如果你的设备为 GTX 1050 Ti,且有本地自主训练模型的需求,推荐选择初代麻宫雅典娜 RVCv2 轻量模型;如果以日常推理、多平台使用为主,设备为 4GB 低配显卡或纯 CPU 环境,优先选用本次发布的 15R2 第二代版本;追求低延迟、轻量化推理效果,24kHz 采样率的 R2 版本是最优解。

本系列项目初衷是降低 AI 语音技术的使用门槛,让每一台低配电脑都能体验 RVC 模型的魅力。也希望广大技术爱好者一同守护开源环境,合理合规使用开源成果,共同交流学习 AI 语音合成相关技术。

相关推荐
想你依然心痛1 天前
手机远程控制电脑教程:安卓iOS远程桌面推荐、免费工具配置与远程办公技巧
android·智能手机·电脑
王小王-1231 天前
基于电脑硬件市场数据分析与可视化系统
数据库·数据分析·django·sqlite·电脑·电脑硬件数据·电脑硬件市场分析
老高学长1 天前
企业如何对局域网电脑进行监控?五个局域网电脑实时监控的方法分享,全方位监控电脑
网络·安全·电脑
herinspace1 天前
管家婆云辉煌开单优化
服务器·数据库·电脑·管家婆软件·财务软件
开开心心_Every1 天前
近200个工具的电脑故障修复合集
linux·运维·服务器·leetcode·智能手机·电脑·模拟退火算法
云飞云共享云桌面1 天前
集中算力・统一数据・高效协同:SolidWorks 云桌面方案详解
运维·服务器·人工智能·安全·3d·电脑·制造
啦啦啦~~~3302 天前
【办公软件】开源的PDF合并分割工具!支持PDF拆分、合并、交替混合、页面旋转、提取页面等
阿里云·pdf·电脑·开源软件
2603_954138392 天前
软件开发全链路效能提升实战指南
电脑
星野爱8952 天前
云顶之弈7周年新版本!手机随时随地畅玩周年时光机派对
网络·智能手机·电脑