English Documentation Please Click here

VITS 快速微调

这个代码库会指导你如何将自定义角色，甚至你自己的声线加入一个现有的VITS模型中，在1小时内的微调使模型具备如下功能：

在你 & 你加入的角色 & 预设角色之间进行任意声线转换
以你的声线 & 你加入的角色声线 & 预设角色声线进行中日英三语文本到语音合成。

本项目使用的底模涵盖常见二次元男/女配音声线（来自原神数据集）以及现实世界常见男/女声线（来自VCTK数据集），支持中日英三语，保证能够在微调时快速适应新的声线。

欢迎体验微调所使用的底模！

目前支持的任务:

转换用户声线到这些角色
自定义角色的中日英三语TTS！

目前支持声线转换和中日英三语TTS的角色

赛马娘（仅已实装角色）（预训练时使用的角色）
魔女的夜宴（柚子社）（5人）（预训练时使用的角色）
原神（仅已实装角色）（预训练时使用的角色）
任意角色（只要你有角色的声音样本）

微调

建议使用 Google Colab 进行微调任务，因为VITS在多语言情况下的某些环境依赖相当难以配置。

在Google Colab里，我需要花多长时间？

安装依赖 (2 min)
录入你自己的声音，阅读内容会在UI中提供，每句不超过20个字。 (5~10 min)
上传你希望加入的其它角色声音，用一个.zip文件打包文件结构应该如下所示:

Your-zip-file.zip
├───Character_name_1
├   ├───xxx.wav
├   ├───...
├   ├───yyy.mp3
├   └───zzz.wav
├───Character_name_2
├   ├───xxx.wav
├   ├───...
├   ├───yyy.mp3
├   └───zzz.wav
├───...
├
└───Character_name_n
    ├───xxx.wav
    ├───...
    ├───yyy.mp3
    └───zzz.wav

注意音频的格式和名称都不重要，只要它们是音频文件。
质量要求：2秒以上，10秒以内，尽量不要有背景噪音。
数量要求：一个角色至少10条，最好每个角色20条以上。
你可以选择进行步骤2或3，或二者一起，取决于你的需求。

进行微调 (30 min)

微调结束后可以直接下载微调好的模型，日后在本地运行（不需要GPU）

本地运行和推理

记得下载微调好的模型和config文件！
下载最新的Release包
把下载的模型和config文件放在 inference文件夹下, 确保模型的文件名为 G_latest.pth ，config文件名为 finetune_speaker.json
一切准备就绪后，文件结构应该如下所示:

inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth

运行 inference.exe, 浏览器会自动弹出窗口, 注意其所在路径不能有中文字符或者空格.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_ZH.md

README_ZH.md

VITS 快速微调

目前支持的任务:

目前支持声线转换和中日英三语TTS的角色

微调

在Google Colab里，我需要花多长时间？

本地运行和推理

Files

README_ZH.md

Latest commit

History

README_ZH.md

File metadata and controls

VITS 快速微调

目前支持的任务:

目前支持声线转换和中日英三语TTS的角色

微调

在Google Colab里，我需要花多长时间？

本地运行和推理