Skip to content

Latest commit

 

History

History
92 lines (67 loc) · 2.49 KB

README.md

File metadata and controls

92 lines (67 loc) · 2.49 KB

🎤 Voice Synthesis Project

Проект для синтеза речи с использованием модели fish-speech/xtts. Позволяет преобразовывать текст в речи с клонированием голоса.

🎧 Демонстрация

Образец

Результат синтеза

✨ Особенности

  • Клоинрование голоса из WAV-файла
  • Поддержка русского языка
  • Высокое качество синтеза
  • Простой API

🔧 Требования

  • Python 3.11 - 3.11.9
  • Библиотека TTS
  • Образец голоса (WAV, 16kHz, moho)
  • Минимум 4GB RAM

⚙️ Установка

Клонирование репозитория

  1. Клонируйте проект:
    git clone [email protected]:5ekastanx/Voice-Synthesis.git
    cd Voice-Synthesis

Обновление Python до версии 3.11

Если у вас установлена другая версия Python, выполните следующие шаги:

  1. Деактивируйте текущее виртуальное окружение (если есть):

    deactivate
  2. Активируйте окружение:

    new_venv/bin/activate
  3. Установите TTS:

    pip install TTS

📁 Структура проекта

Voice-Synthesis/
├── main.py              # Основной скрипт
├── voice_samples/       # Образцы голоса
│   └── aliya.wav       # Пример образца
└── output/             # Выходные файлы
    └── output.wav

🚀 Использование

  1. Поместите WAV-файл с образцом голоса в voice_samples/

  2. Запустите синтез:

    text = "Ваш текст для синтеза"
    synthesize(
        text=text,
        speaker_wav=speaker_wav
    )
  3. Запустите скрипт:

    python main.py

❗ Устранение проблем

  • CUDA out of memory: Уменьшите размер текста
  • Искажение голоса: Проверьте частоту дискретизации (16kHz)
  • FileNotFoundError: Проверьте пути к файлам