Initial model

robinhad · Oct 14, 2021 · 7a5c0f9 · 7a5c0f9
1 parent b547cb7
commit 7a5c0f9
Show file tree

Hide file tree

Showing 3 changed files with 183 additions and 2 deletions.
diff --git a/README.md b/README.md
@@ -1,2 +1,24 @@
-# ukrainian-tts
-Ukrainian TTS (text-to-speech) using Coqui TTS
+# Ukrainian TTS 📢🤖
+Ukrainian TTS (text-to-speech) using Coqui TTS.
+
+Trained on [M-AILABS Ukrainian dataset](https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/) using `sumska` voice.  
+
+# How to use :
+1. `pip install -r requirements.txt`.
+2. Download model from "Releases" tab.
+3. Launch as one-time command:  
+```
+tts --text "Text for TTS" \
+    --model_path path/to/model.pth.tar \
+    --config_path path/to/config.json \
+    --out_path folder/to/save/output.wav
+```
+or alternatively launch web server using:
+```
+tts-server --model_path path/to/model.pth.tar \
+    --config_path path/to/config.json
+```
+
+# How to train:
+1. Refer to ["Nervous beginner guide"](https://tts.readthedocs.io/en/latest/tutorial_for_nervous_beginners.html) in Coqui TTS docs.
+2. Instead of provided `config.json` use one from this repo.
diff --git a/config.json b/config.json
@@ -0,0 +1,158 @@
+{
+    "model": "glow_tts",
+    "run_name": "coqui_tts",
+    "run_description": "",
+    "epochs": 1000,
+    "batch_size": 32,
+    "eval_batch_size": 16,
+    "mixed_precision": true,
+    "scheduler_after_epoch": false,
+    "run_eval": true,
+    "test_delay_epochs": -1,
+    "print_eval": true,
+    "dashboard_logger": "tensorboard",
+    "print_step": 25,
+    "plot_step": 100,
+    "model_param_stats": false,
+    "project_name": null,
+    "log_model_step": null,
+    "wandb_entity": null,
+    "save_step": 10000,
+    "checkpoint": true,
+    "keep_all_best": false,
+    "keep_after": 10000,
+    "num_loader_workers": 1,
+    "num_eval_loader_workers": 1,
+    "use_noise_augment": false,
+    "output_path": "./ukrainian",
+    "distributed_backend": "nccl",
+    "distributed_url": "tcp://localhost:54321",
+    "audio": {
+        "fft_size": 1024,
+        "win_length": 1024,
+        "hop_length": 256,
+        "frame_shift_ms": null,
+        "frame_length_ms": null,
+        "stft_pad_mode": "reflect",
+        "sample_rate": 16000,
+        "resample": false,
+        "preemphasis": 0.0,
+        "ref_level_db": 20,
+        "do_sound_norm": false,
+        "log_func": "np.log10",
+        "do_trim_silence": true,
+        "trim_db": 45,
+        "power": 1.5,
+        "griffin_lim_iters": 60,
+        "num_mels": 80,
+        "mel_fmin": 0.0,
+        "mel_fmax": null,
+        "spec_gain": 20,
+        "do_amp_to_db_linear": true,
+        "do_amp_to_db_mel": true,
+        "signal_norm": true,
+        "min_level_db": -100,
+        "symmetric_norm": true,
+        "max_norm": 4.0,
+        "clip_norm": true,
+        "stats_path": null
+    },
+    "use_phonemes": false,
+    "use_espeak_phonemes": false,
+    "phoneme_language": null,
+    "compute_input_seq_cache": false,
+    "text_cleaner": "basic_cleaners",
+    "enable_eos_bos_chars": false,
+    "test_sentences_file": "",
+    "phoneme_cache_path": "./phoneme_cache",
+    "characters": {
+        "pad": "_",
+        "eos": "~",
+        "bos": "^",
+        "characters": "!',-.:;?ABIMXaceinoprxy\u0404\u0406\u0407\u0410\u0411\u0412\u0413\u0414\u0415\u0416\u0417\u0418\u0419\u041a\u041b\u041c\u041d\u041e\u041f\u0420\u0421\u0422\u0423\u0424\u0425\u0426\u0427\u0428\u0429\u042c\u042f\u0430\u0431\u0432\u0433\u0434\u0435\u0436\u0437\u0438\u0439\u043a\u043b\u043c\u043d\u043e\u043f\u0440\u0441\u0442\u0443\u0444\u0445\u0446\u0447\u0448\u0449\u044c\u044e\u044f\u0454\u0456\u0457\u0490\u0491 ",
+        "punctuations": "!',-.:;? ",
+        "phonemes": null,
+        "unique": true
+    },
+    "batch_group_size": 0,
+    "loss_masking": null,
+    "sort_by_audio_len": false,
+    "min_seq_len": 3,
+    "max_seq_len": 500,
+    "compute_f0": false,
+    "compute_linear_spec": false,
+    "add_blank": false,
+    "datasets": [
+        {
+            "name": "ljspeech",
+            "path": "./data/uk_UK/by_book/female/sumska/kaydasheva",
+            "meta_file_train": "metadata.csv",
+            "ununsed_speakers": null,
+            "meta_file_val": "",
+            "meta_file_attn_mask": ""
+        },
+        {
+            "name": "ljspeech",
+            "path": "./data/uk_UK/by_book/female/sumska/mykola_djerya",
+            "meta_file_train": "metadata.csv",
+            "ununsed_speakers": null,
+            "meta_file_val": "",
+            "meta_file_attn_mask": ""
+        }
+    ],
+    "optimizer": "RAdam",
+    "optimizer_params": {
+        "betas": [
+            0.9,
+            0.998
+        ],
+        "weight_decay": 1e-06
+    },
+    "lr_scheduler": "NoamLR",
+    "lr_scheduler_params": {
+        "warmup_steps": 4000
+    },
+    "test_sentences": [
+        "\u0413\u043e\u0432\u043e\u0440\u0438 \u043d\u0456\u0431\u0438 \u0442\u0438 \u0436\u0438\u0432\u0438\u0439!",
+        "\u041f\u043e\u043b \u043f\u0435\u0440\u0435\u0442\u043d\u0443\u0432 \u043f\u0443\u0441\u0442\u0435\u043b\u044e",
+        "\u041f\u0440\u0438\u0432\u0456\u0442, \u0441\u0432\u0456\u0442\u0435!"
+    ],
+    "use_speaker_embedding": false,
+    "use_d_vector_file": false,
+    "d_vector_dim": 0,
+    "num_chars": null,
+    "encoder_type": "rel_pos_transformer",
+    "encoder_params": {
+        "kernel_size": 3,
+        "dropout_p": 0.1,
+        "num_layers": 6,
+        "num_heads": 2,
+        "hidden_channels_ffn": 768,
+        "input_length": null
+    },
+    "use_encoder_prenet": true,
+    "hidden_channels_enc": 192,
+    "hidden_channels_dec": 192,
+    "hidden_channels_dp": 256,
+    "dropout_p_dp": 0.1,
+    "dropout_p_dec": 0.05,
+    "mean_only": true,
+    "out_channels": 80,
+    "num_flow_blocks_dec": 12,
+    "inference_noise_scale": 0.0,
+    "kernel_size_dec": 5,
+    "dilation_rate": 1,
+    "num_block_layers": 4,
+    "num_speakers": 0,
+    "c_in_channels": 0,
+    "num_splits": 4,
+    "num_squeeze": 2,
+    "sigmoid_scale": false,
+    "data_dep_init_steps": 10,
+    "style_wav_for_test": null,
+    "length_scale": 1.0,
+    "d_vector_file": false,
+    "grad_clip": 5.0,
+    "lr": 0.001,
+    "r": 1
+}
diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1 @@
+TTS==0.3.1