介绍

RVC 全称 Retrieval-based-Voice-Conversion ,是一个基于VITS的变声器,常配合UVR使用(翻唱)。

配置要求

与 SoVITS 类似,但对渣机更加友好(1650还是没法玩),甚至用服务器CPU“2690v2”(两枚)或者“2650v4”也可以花费大概两天半的时间训练一个模型。

推理最少4GB VRAM(实际上4GB显存太过于坐牢)

炼丹最少6GB VRAM

没有显卡可以用CPU龟速炼丹(下下策)

细节

影响炼丹/推理速度的因素有:

  • CPU主频(如果使用CPU的话)
  • CPU核心/线程数(如果使用CPU的话)(影响幅度较小)
  • 内存频率(如果使用CPU的话)(影响幅度较大)
  • 显卡CUDA核心个数(影响幅度最大)
  • 显存频率(影响幅度中等)
  • 显存大小(影响幅度最大,可以调整batch_size以加快(?)炼丹速度)

部署(Linux/Windows通用)

最好使用conda来管理py环境,这里我假设你成功安装了conda,以下是需要运行的命令:

conda create -n=rvc python=3.10
conda activate rvc
git clone https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
pip install -r requirements.txt
cd tools/
export all_proxy=http://<代理地址>:<端口>
./dlmodels.sh #下载预处理模型
cp -r assets/* ../assets/
cd ..

自此即为部署成功

启动!

python infer-web.py

稍后即可在浏览器看到以下页面:(自动打开)

例子

推理

  1. 重采样,这个选项一般不管,保持0即可
  2. 无脑拉1
  3. 一般保持默认0.33即可,拉太小会糊
  4. 仅havest有效,一般不管
  5. 看模型质量,模型好可以拉大些0.8~0.98,模型不行可以拉0.4~0.7,一般给出的0.75也是可以尝试的
  6. 男转女调12,女转男调-12,同性保持0即可

炼丹

image.png

  1. 有显卡就选rmvpe_gpu,没有显卡那就选rmvpe
  2. 保存频率应该是总训练轮数的因数
  3. 这个看数据集长短,(5,10]min 推荐[300,500]轮,>10min 推荐[50,300)。如果实在不知道训多少轮,那就250吧
  4. CPU炼丹的话起码8,GPU炼丹看显存;这个决定吃VRAM/RAM的程度

整个页面都很写得很清楚了,本文无需多讲

杂项

wav和flac比较占空间,mp3比较吃时间

如果跑一下不行,那么可以改一改参数再跑一下

原音频和模型质量决定最终输出上限