RSS
Новости
Реклама

ЗДЕСЬ МОГЛА БЫТЬ ВАША РЕКЛАМА!

Балаболка Программы для использования онлайн-сервисов синтеза речи

Консольные приложения позволяют использовать популярные онлайн-сервисы для синтеза речи: текст или субтитры будут преобразованы в звуковые файлы формата WAV. Программы могут быть применены в тестовых целях, для изучения возможностей облачных сервисов. Для Yandex SpeechKit было создано отдельное приложение, так как этот сервис принадлежит российской IT-компании.

Утилита для онлайн-сервисов синтеза речи

Онлайн-сервисы для синтеза речи:

  • Google Cloud Text-to-Speech;
  • Amazon Polly;
  • Baidu Text-to-Speech;
  • IBM Watson Text-to-Speech;
  • Microsoft Azure;
  • Naver Text-to-Speech;
  • Youdao Text-to-Speech;
  • Yandex SpeechKit.


Загрузить утилиту BAL4WEB


Размер файла: МБ
 
Версия:
 
Тип лицензии: Freeware
 
Операционная система:
Консольное приложение для Yandex SpeechKit: Скачать ( МБ)
Программа позволяет преобразовать текст или субтитры в звуковые файлы при помощи онлайн-сервиса "Яндекс.Облако". Для выполнения операций через API необходимо получить API-ключ в сервисном аккаунте.



Командная строка

Программа может быть настроена с помощью параметров командной строки. Они отделяются друг от друга пробелом и начинаются с символа "-" (дефис). Полный список параметров командной строки можно получить, введя команду bal4web.exe с параметрами -? или -h.


-s имя_сервиса
Выбрать онлайн-сервис для синтеза речи ("google" или "g", "amazon" или "a", "baidu" или "b", "ibm" или "i", "microsoft" или "m", "naver" или "n", "youdao" или "y"). По умолчанию значение равно "google".
-l идентификатор_языка
Выбрать язык для синтеза речи. Идентификатор представляет собой комбинацию кода языка по стандарту ISO 639 (две маленькие буквы) и кода по стандарту ISO 3166 (две большие буквы), объединенных дефисом. Например: en-US, de-DE, ru-RU.
По умолчанию значение равно "en-US" (этот язык поддерживается всеми онлайн-сервисами).
-g пол
Выбрать пол голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Женский пол: "female" или "f". Мужской пол: "male" или "m". Значение по умолчанию отсутствует; онлайн-сервис сам выберет пол голоса для каждого языка.
Параметр поддерживают сервисы Google TTS, Amazon Polly, IBM Watson TTS.
-n имя_голоса
Указать имя голоса для синтеза речи (если онлайн-сервис поддерживает такой параметр). Значение по умолчанию отсутствует; онлайн-сервис сам выберет голос для каждого языка.
Параметр поддерживают сервисы Amazon Polly, IBM Watson TTS и Microsoft Azure.
-r число
Установить скорость речи (если онлайн-сервис поддерживает такой параметр). По умолчанию значение равно "1.0" (средняя скорость человеческой речи).
Для Google TTS и Microsoft Azure значения находятся в диапазоне от "0.1" до "3.0".
Для Naver TTS значения находятся в диапазоне от "0.5" до "1.5".
-v целое_число
Установить громкость в диапазоне от 0 до 200 (по умолчанию значение равно 100).
-m
Показать список языков, поддерживаемых онлайн-сервисом, а также перечислить дополнительные характеристики голосов для каждого языка (если есть).
-f имя_файла
Открыть текстовый файл. Командная строка может содержать несколько параметров -f.
-fl имя_файла
Открыть файл со списком текстовых файлов (по одному имени файла на каждой строке). Командная строка может содержать несколько параметров -fl.
-w имя_файла
Записать звуковой файл в формате WAV.
-c
Использовать текст из буфера обмена.
-t текст
Использовать текст из командной строки. Командная строка может содержать несколько параметров -t.
-i
Использовать текст из стандартного потока ввода (STDIN).
-o
Записать аудиоданные в стандартный поток вывода (STDOUT); если параметр задан, параметр -w игнорируется.
--encoding кодировка или -enc кодировка
Кодировка текста из стандартного потока ввода ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
-ln число
Выбрать строку из текстового файла, используя её номер. Нумерация строк начинается с "1". Для выбора нескольких строк можно указать номера начальной и конечной строк в тексте (например, "26-34"). Командная строка может содержать несколько параметров -ln.
-e число
Установить длину пауз между предложениями (в миллисекундах). Значение должно быть меньше 5000. Если параметр не задан, сервис будет использовать паузы между предложениями по умолчанию. Параметр поддерживает сервис Microsoft Azure.
-d имя_файла
Применить к тексту правила для коррекции произношения из словаря (файла с расширением *.BXD, *.DIC или *.REX). Командная строка может содержать несколько параметров -d. Пользователь может редактировать словарь в приложении Балаболка.
-lrc
Создать файл формата LRC. Текст в файле будет синхронизирован с речью в созданном звуковом файле.
-srt
Создать файл формата SRT. Субтитры в файле будет синхронизирован с речью в созданном звуковом файле.
-sub
Текст представляет собой субтитры и должен быть преобразован в звуковой файл с учетом заданных интервалов времени. Параметр может быть полезен в тех случаях, когда в командной строке заданы параметры -i или -c.
-host адрес
Указать адрес прокси-сервера.
-port число
Указать порт прокси-сервера.
-dp
Показать индикатор прогресса выполнения в окне консольного приложения.
--ignore-square-brackets или -isb
Игнорировать текст в [квадратных скобках].
--ignore-curly-brackets или -icb
Игнорировать текст в {фигурных скобках}.
--ignore-angle-brackets или -iab
Игнорировать текст в <угловых скобках>.
--ignore-round-brackets или -irb
Игнорировать текст в (круглых скобках).
--ignore-url или -iu
Игнорировать URL-адреса.
--ignore-comments или -ic
Игнорировать комментарии в тексте. Однострочные комментарии начинаются с // и продолжаются до конца строки. Многострочные комментарии начинаются с /* и завершаются */.
-h
Показать описание параметров командной строки.
--lrc-length число
Установить максимальную длину строк для файла формата LRC (в символах).
--lrc-fname имя_файла
Имя файла формата LRC. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
--lrc-enc кодировка
Кодировка файла формата LRC ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
--lrc-offset число
Задать сдвиг времени для файла формата LRC (в миллисекундах).
--lrc-artist текст
Тег для файла формата LRC: исполнитель произведения.
--lrc-album текст
Тег для файла формата LRC: альбом.
--lrc-title текст
Тег для файла формата LRC: название произведения.
--lrc-author текст
Тег для файла формата LRC: автор.
--lrc-creator текст
Тег для файла формата LRC: создатель файла.
--lrc-sent
Вставить пустые строки после предложений при создании файла формата LRC.
--lrc-para
Вставить пустые строки после абзацев при создании файла формата LRC.
--srt-length число
Установить максимальную длину строк для файла формата SRT (в символах).
--srt-fname имя_файла
Имя файла формата SRT. Параметр может быть полезен в тех случаях, когда в командной строке задан параметр -o.
--srt-enc кодировка
Кодировка файла формата SRT ("ansi", "utf8" или "unicode"). По умолчанию значение равно "ansi".
--raw
Записать аудиоданные в формате RAW PCM; данные не содержат заголовок формата WAV. Параметр используется совместно с параметром -o.
--ignore-length или -il
Не записывать размер аудиоданных в заголовок формата WAV. Параметр используется совместно с параметром -o.
--sub-format текст
Формат субтитров ("srt", "lrc", "ssa", "ass", "smi" или "vtt"). Если параметр не задан, формат будет определен по расширению имени файла субтитров.
--sub-fit или -sf
При преобразовании субтитров в речь автоматически увеличивать скорость речи для того, чтобы уложиться в заданные интервалы времени.
Параметр поддерживают сервисы Google TTS и Naver TTS.



Примеры команд

Создать текстовый файл со списком языков, поддерживаемых онлайн-сервисом Google TTS:

bal4web -s Google -m > language.txt



Преобразовать текстовый файл BOOK.TXT в звуковой файл BOOK.WAV:

bal4web -f "d:\Text\book.txt" -w "d:\Sound\book.wav" -s Google -l ru-RU -g female



Преобразовать файл субтитров MOVIE.SRT в звуковой файл MOVIE.WAV:

bal4web -f "d:\Subtitles\movie.srt" -w "d:\Sound\movie.wav" -s m -l ru-RU -n SvetlanaNeural -r 1.1



Пример использования приложения совместно с утилитой LAME.EXE:

bal4web -f d:\book.txt -s Baidu -l ru-RU -o --raw | lame -r -s 16 -m m -h - d:\book.mp3



Пример использования приложения совместно с утилитой OGGENC2.EXE:

bal4web -f d:\book.txt -s Baidu -l ru-RU -o -il | oggenc2 --ignorelength - -o d:\book.ogg



Файл конфигурации

Параметры можно сохранить как файл конфигурации bal4web.cfg в той же папке, что и консольное приложение.

Пример содержимого файла:

-f d:\Text\book.txt
-w d:\Sound\book.wav
-s Google
-l de-DE
-g female
-d d:\Dict\rules.bxd
-lrc
--lrc-length 75
--lrc-enc utf8

Программа может комбинировать параметры из файла конфигурации и командной строки.




Лицензия

Коммерческое использование программы допускается только с разрешения правообладателя.