Балаболка  Программы для использования онлайн-сервисов синтеза речи
Консольные приложения позволяют использовать популярные онлайн-сервисы для синтеза речи: текст или субтитры будут преобразованы в звуковые файлы формата WAV. Программы могут быть применены в тестовых целях, для изучения возможностей облачных сервисов. Для Yandex SpeechKit было создано отдельное приложение, так как этот сервис принадлежит российской IT-компании.
 |
Онлайн-сервисы для синтеза речи:
- Google Cloud Text-to-Speech;
- Amazon Polly;
- Baidu Text-to-Speech;
- IBM Watson Text-to-Speech;
- Microsoft Azure;
- Naver Text-to-Speech;
- Youdao Text-to-Speech;
- Yandex SpeechKit.
|
Загрузить утилиту BAL4WEB
Размер файла: МБ
| |
Версия:
| |
Тип лицензии: Freeware
| |
Операционная система:
|
Консольное приложение для Yandex SpeechKit: Скачать ( МБ)
Программа позволяет преобразовать текст или субтитры в звуковые файлы при помощи онлайн-сервиса "Яндекс.Облако".
Для выполнения операций через API необходимо получить API-ключ в сервисном аккаунте.
Командная строка
Программа может быть настроена с помощью параметров командной строки. Они отделяются друг от друга пробелом и начинаются с символа "-" (дефис). Полный список параметров командной строки можно получить, введя команду bal4web.exe с параметрами -? или -h.
- -s имя_сервиса
- Выбрать онлайн-сервис для синтеза речи ("google" или "g", "amazon" или "a", "baidu" или "b", "ibm" или "i", "microsoft" или "m", "naver" или "n", "youdao" или "y"). По умолчанию значение равно "google".
- -l идентификатор_языка
- Выбрать язык для синтеза речи. Идентификатор представляет собой комбинацию кода языка по стандарту ISO 639 (две маленькие буквы) и кода по стандарту ISO 3166 (две большие буквы), объединенных дефисом. Например: en-US, de-DE, ru-RU.
По умолчанию значение равно "en-US" (этот язык поддерживается всеми онлайн-сервисами).
- -g пол
- Выбрать пол голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Женский пол: "female" или "f". Мужской пол: "male" или "m". Значение по умолчанию отсутствует; онлайн-сервис сам выберет пол голоса для каждого языка.
Параметр поддерживают сервисы Google TTS, Amazon Polly, IBM Watson TTS.
- -n имя_голоса
- Указать имя голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Значение по умолчанию отсутствует; онлайн-сервис сам выберет голос для каждого языка.
Параметр поддерживают сервисы Amazon Polly, IBM Watson TTS и Microsoft Azure.
- -r число
- Установить скорость речи (если онлайн-сервис поддерживает такой параметр). По умолчанию значение равно "1.0" (средняя скорость человеческой речи).
Для Google TTS и Microsoft Azure значения находятся в диапазоне от "0.1" до "3.0". Для Naver TTS значения находятся в диапазоне от "0.5" до "1.5".
- -v целое_число
- Установить громкость в диапазоне от 0 до 200 (по умолчанию значение равно 100).
- -m
- Показать список языков, поддерживаемых онлайн-сервисом, а также перечислить дополнительные характеристики голосов для каждого языка (если есть).
- -f имя_файла
- Открыть текстовый файл. Командная строка может содержать несколько параметров -f.
- -fl имя_файла
- Открыть файл со списком текстовых файлов (по одному имени файла на каждой строке). Командная строка может содержать несколько параметров -fl.
- -w имя_файла
- Записать звуковой файл в формате WAV.
- -c
- Использовать текст из буфера обмена.
- -t текст
- Использовать текст из командной строки. Командная строка может содержать несколько параметров -t.
- -i
- Использовать текст из стандартного потока ввода (STDIN).
- -o
- Записать аудиоданные в стандартный поток вывода (STDOUT); если параметр задан, параметр -w игнорируется.
- --encoding кодировка или -enc кодировка
- Кодировка текста из стандартного потока ввода ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
- -ln число
- Выбрать строку из текстового файла, используя её номер. Нумерация строк начинается с "1". Для выбора нескольких строк можно указать номера начальной и конечной строк в тексте (например, "26-34"). Командная строка может содержать несколько параметров -ln.
- -e число
- Установить длину пауз между предложениями (в миллисекундах). Значение должно быть меньше 5000. Если параметр не задан, сервис будет использовать паузы между предложениями по умолчанию. Параметр поддерживает сервис Microsoft Azure.
- -d имя_файла
- Применить к тексту правила для коррекции произношения из словаря (файла с расширением *.BXD, *.DIC или *.REX). Командная строка может содержать несколько параметров -d. Пользователь может редактировать словарь в приложении Балаболка.
- -lrc
- Создать файл формата LRC. Текст в файле будет синхронизирован с речью в созданном звуковом файле.
- -srt
- Создать файл формата SRT. Субтитры в файле будет синхронизирован с речью в созданном звуковом файле.
- -sub
- Текст представляет собой субтитры и должен быть преобразован в звуковой файл с учетом заданных интервалов времени. Параметр может быть полезен в тех случаях, когда в командной строке заданы параметры -i или -c.
- -host адрес
- Указать адрес прокси-сервера.
- -port число
- Указать порт прокси-сервера.
- -dp
- Показать индикатор прогресса выполнения в окне консольного приложения.
- --ignore-square-brackets или -isb
- Игнорировать текст в [квадратных скобках].
- --ignore-curly-brackets или -icb
- Игнорировать текст в {фигурных скобках}.
- --ignore-angle-brackets или -iab
- Игнорировать текст в <угловых скобках>.
- --ignore-round-brackets или -irb
- Игнорировать текст в (круглых скобках).
- --ignore-url или -iu
- Игнорировать URL-адреса.
- --ignore-comments или -ic
- Игнорировать комментарии в тексте. Однострочные комментарии начинаются с // и продолжаются до конца строки. Многострочные комментарии начинаются с /* и завершаются */.
- -h
- Показать описание параметров командной строки.
- --lrc-length число
- Установить максимальную длину строк для файла формата LRC (в символах).
- --lrc-fname имя_файла
- Имя файла формата LRC. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
- --lrc-enc кодировка
- Кодировка файла формата LRC ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
- --lrc-offset число
- Задать сдвиг времени для файла формата LRC (в миллисекундах).
- --lrc-artist текст
- Тег для файла формата LRC: исполнитель произведения.
- --lrc-album текст
- Тег для файла формата LRC: альбом.
- --lrc-title текст
- Тег для файла формата LRC: название произведения.
- --lrc-author текст
- Тег для файла формата LRC: автор.
- --lrc-creator текст
- Тег для файла формата LRC: создатель файла.
- --lrc-sent
- Вставить пустые строки после предложений при создании файла формата LRC.
- --lrc-para
- Вставить пустые строки после абзацев при создании файла формата LRC.
- --srt-length число
- Установить максимальную длину строк для файла формата SRT (в символах).
- --srt-fname имя_файла
- Имя файла формата SRT. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
- --srt-enc кодировка
- Кодировка файла формата SRT ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
- --raw
- Записать аудиоданные в формате RAW PCM; данные не содержат заголовок формата WAV. Параметр используется совместно с параметром -o.
- --ignore-length или -il
- Не записывать размер аудиоданных в заголовок формата WAV. Параметр используется совместно с параметром -o.
- --sub-format текст
- Формат субтитров ("srt", "lrc", "ssa", "ass", "smi" или "vtt"). Если параметр не задан, формат будет определен по расширению имени файла субтитров.
- --sub-fit или -sf
- При преобразовании субтитров в речь автоматически увеличивать скорость речи для того, чтобы уложиться в заданные интервалы времени.
Параметр поддерживают сервисы Google TTS и Naver TTS.
Примеры команд
Создать текстовый файл со списком языков, поддерживаемых онлайн-сервисом Google TTS:
bal4web -s Google -m > language.txt
Преобразовать текстовый файл BOOK.TXT в звуковой файл BOOK.WAV:
bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l ru-RU -g female
Преобразовать файл субтитров MOVIE.SRT в звуковой файл MOVIE.WAV:
bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l ru-RU -n SvetlanaNeural -r 1.1
Пример использования приложения совместно с утилитой LAME.EXE:
bal4web -f d:\book.txt -s Baidu -l ru-RU -o --raw | lame -r -s 16 -m m -h - d:\book.mp3
Пример использования приложения совместно с утилитой OGGENC2.EXE:
bal4web -f d:\book.txt -s Baidu -l ru-RU -o -il | oggenc2 --ignorelength - -o d:\book.ogg
Файл конфигурации
Параметры можно сохранить как файл конфигурации bal4web.cfg в той же папке, что и консольное приложение.
Пример содержимого файла:
-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8
|
Программа может комбинировать параметры из файла конфигурации и командной строки.
Лицензия
Коммерческое использование программы допускается только с разрешения правообладателя.
|