胡桃讲编程：麻宫雅典娜 15 RVCv2 第二代（R2）完整开源发布文档

作者：龙沅可

温馨提示：本项目为非官方同人二创作品，全程秉持公益开源原则，无任何商业运营行为。请所有使用者严格遵守国家法律法规与开源协议，合理运用本套开源模型与技术资源，坚决杜绝非法用途与违规使用行为。本模型原 IP 版权归 SNK 所有，仅用于技术交流、个人学习与非盈利同人创作。

一、项目整体介绍与发布信息

随着 AI 语音合成技术不断普及，RVC 凭借轻量化、易上手、音色还原度出色等优势，成为广大音频爱好者、技术玩家进行语音转换、歌声合成的主流工具。但不少入门用户受限于老旧显卡、小显存设备，难以流畅运行高精度 RVC 模型。为此，柴框云智算・低配卡 RVC 公益开源项目 持续深耕低配置设备适配领域，本次正式推出麻宫雅典娜 15 RVCv2 第二代（R2）国语声库，该版本是在初代麻宫雅典娜 RVCv2 轻量模型的基础上全面迭代优化而来，由龙洛工作室主导完成模型训练、参数调优与兼容性适配工作，核心目标是让 4GB 显存及以下的低配电脑、老旧显卡，甚至纯 CPU 设备都能稳定、流畅地使用高精度 AI 声库。

本版本定位为公益开源声库，面向全体技术爱好者免费开放下载与使用，兼顾音色品质、运行稳定性与多平台适配能力，同时优化了推理参数与算法逻辑，进一步降低硬件门槛。以下为项目完整配套文件、下载链接与基础信息说明：

项目全称：柴云智算 - 虚拟歌手・麻宫雅典娜 15R2 国语声库（公益开源版 RVCv2 第二代）
开源下载链接 ：https://115cdn.com/s/swshwg73nam?password=qe46
全套配套文件清单
- 核心模型权重：Athena Asamiya15R2.pth（原始权重文件：G_500.pth）
- 特征索引文件：Athena Asamiya15R2.index（原始索引文件：added_IVF145_Flat_nprobe_1_Athena15R2_v2.index）
- 底层配置文件：config.json
- 配套文档：麻宫雅典娜 15R2 - 使用说明书.txt
版权声明：拳皇 15 及麻宫雅典娜 IP 版权归属 SNK，本模型为非商用公益二创成果，仅用于技术交流、个人娱乐与非盈利创作，不涉及任何商业授权与商业变现。

二、版本迭代亮点与声库定位

相较于初代 GTX 1050 Ti 本地训练的轻量模型，本次 R2 第二代版本在算法、算力、兼容性、运行效率四大维度完成全面升级，针对性解决低配设备卡顿、音色断层、平台适配单一等问题。两者详细对比信息如下表所示：

表格

优化方向	初代版本	R2 第二代版本
推理采样率	40kHz	主推 24kHz，大幅降低硬件负载，低配设备延迟更低
音高提取算法	pm（首相算法）	升级为主流 RMVPE 算法，新增 MVPE_GPU 预留算法，音准表现更优秀
平台适配范围	仅支持主流 RVC 版本	全系列 RVC 版本兼容，新增流明平台接入能力，使用场景更广
训练硬件环境	GTX 1050 Ti 本地训练	RTX 4090 + 云 RVC AutuDL 云端联合训练，音色精度与细节还原度显著提升
运行模式兼容	仅支持 GPU 推理	CPU/GPU 双端通用，完美适配 4GB 及以下老旧显卡，无硬件限制
检索特征参数	无固定配比，音色一致性较差	固定检索特征占比 0.78，全程音色统一，避免转换失真

在声线风格与创作适配层面，本声库高度还原《拳皇 15》中麻宫雅典娜标志性的清亮少女音，经过多轮调优后，中高音区稳定性大幅增强，气声过渡自然，人声咬字清晰饱满。曲风适配范围十分广泛，可应用于 ACG 内容创作、游戏同人配音、热血流行翻唱、治愈抒情歌曲、国风音乐以及轻摇滚等场景，是低配设备用户开展非商用语音合成、歌声转换、同人配音的优质选择。

三、全套参数明细（训练 + 推理）

参数是保障模型稳定运行、音色正常输出的核心，本章节分为底层配置、训练参数、推理参数三部分，所有参数均经过实测验证，非专业开发者请勿随意修改。

（一）全局训练配置 config.json

该配置文件定义了模型网络结构、音频参数、训练规则等底层逻辑，直接决定模型基础性能，部署与使用过程中建议保持默认设置。

json

复制代码

{
  "train": {
    "log_interval": 200,
    "seed": 1234,
    "epochs": 20000,
    "learning_rate": 1e-4,
    "betas": [0.8, 0.99],
    "eps": 1e-9,
    "batch_size": 4,
    "fp16_run": true,
    "lr_decay": 0.999875,
    "segment_size": 12800,
    "init_lr_ratio": 1,
    "warmup_epochs": 0,
    "c_mel": 45,
    "c_kl": 1.0
  },
  "data": {
    "max_wav_value": 32768.0,
    "sampling_rate": 40000,
    "filter_length": 2048,
    "hop_length": 400,
    "win_length": 2048,
    "n_mel_channels": 125,
    "mel_fmin": 0.0,
    "mel_fmax": null
  },
  "model": {
    "inter_channels": 192,
    "hidden_channels": 192,
    "filter_channels": 768,
    "n_heads": 2,
    "n_layers": 6,
    "kernel_size": 3,
    "p_dropout": 0,
    "resblock": "1",
    "resblock_kernel_sizes": [3,7,11],
    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
    "upsample_rates": [10,10,2,2],
    "upsample_initial_channel": 512,
    "upsample_kernel_sizes": [16,16,4,4],
    "use_spectral_norm": false,
    "gin_channels": 256,
    "spk_embed_dim": 109
  }
}

（二）核心训练参数

本模型全程从零训练，未加载任何预训练底模，训练数据与硬件参数如下：

基础标识：实验名Athena Asamiya15R2，RVC v2 版本，单人模型说话人 ID 固定为 0，音高指导功能默认开启；
训练规则：原生采样率 40kHz，总计训练 100 轮，每 50 轮自动保存模型文件，CPU 进程数设置为 86 以提升音频处理效率，全程关闭显存缓存，规避小显存溢出问题；
数据集：素材截取于《拳皇 15》原版游戏语音，使用万兴喵影完成录制、转码与切片，共 20 段音频，单段时长 5 秒，统一处理为标准单声道 WAV 格式。使用前建议对输入音频做标准化处理，防止音准偏移、咬字模糊等问题。

（三）官方推荐推理参数（必设）

为保证音色还原度与运行稳定性，不同硬件设备请严格遵循以下参数配置：

通用基础参数：推理采样率 24kHz、音高算法选择 RMVPE、检索特征占比 0.78、音高指导开启、batch_size 设置为 1；
硬件适配方案：8GB 及以上显存显卡可自由选择 CPU 或 GPU 推理；4GB 及以下老旧显卡务必保持 batch_size=1 并关闭显存缓存；纯 CPU 推理无需额外调整参数，仅推理速度略有下降，音色不受影响。

四、模型部署教程（适配全版本 RVC WebUI）

本模型兼容市面上所有版本的 RVC WebUI，同时支持流明平台导入，部署流程简单易操作，新手也可快速上手：

文件放置 ：将Athena Asamiya15R2.pth复制到 RVC 根目录weights文件夹；将索引文件放入logs/Athena Asamiya15R2/目录，无对应文件夹可手动新建；将config.json替换至软件配置目录。
加载验证 ：启动 RVC WebUI，在模型下拉菜单选中Athena Asamiya15R2，索引文件会自动匹配加载，加载完成即可开展语音、歌声转换工作。
跨平台使用：如需在流明平台使用，直接导入模型文件并沿用上述推理参数即可。

五、开源规范、使用准则与公测说明

1. 使用权限划分

允许个人免费使用、非商用翻唱、同人创作、技术交流、非盈利分享与参数二次调优；严禁用于商业盈利、收费分发、模型倒卖、反编译拆解、音色提取以及闭源二次发布等行为。

2. 内容创作规范

禁止利用本模型生成违法、暴力、色情、低俗及侵权内容，所有使用者需自行承担违规使用带来的法律责任。若公开发布基于本模型的作品，必须标注：歌手：麻宫雅典娜 15R2（柴框云公益开源）。

3. 公测反馈渠道

目前麻宫雅典娜 15R2 声库处于公益公测阶段，若大家在使用过程中遇到音色异常、音准偏差、设备卡顿等问题，可通过 B 站、CSDN、项目官方网站留言反馈，团队将根据反馈持续迭代优化版本。

六、版本选择参考建议

结合硬件配置与使用场景，为大家提供选型参考：如果你的设备为 GTX 1050 Ti，且有本地自主训练模型的需求，推荐选择初代麻宫雅典娜 RVCv2 轻量模型；如果以日常推理、多平台使用为主，设备为 4GB 低配显卡或纯 CPU 环境，优先选用本次发布的 15R2 第二代版本；追求低延迟、轻量化推理效果，24kHz 采样率的 R2 版本是最优解。

本系列项目初衷是降低 AI 语音技术的使用门槛，让每一台低配电脑都能体验 RVC 模型的魅力。也希望广大技术爱好者一同守护开源环境，合理合规使用开源成果，共同交流学习 AI 语音合成相关技术。