Содержание

Многоязычный синтез речи с клонированием / Хабр

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на себе всё новые и новый задачи.

Например, пару месяцев назад появилась реализация синтеза речи с голосовым клонированием Real-Time-Voice-Cloning. Давайте попробуем разобраться из чего она состоит и реализуем свою многоязычную (русско-английскую) фонемную модель.

Строение

Наша модель будет состоять из четырёх нейронных сетей. Первая будет преобразовывать текст в фонемы (g2p), вторая — преобразовывать речь, которую мы хотим клонировать, в вектор признаков (чисел). Третья — будет на основе выходов первых двух синтезировать Mel спектрограммы. И, наконец, четвертая будет из спектрограмм получать звук.

Наборы данных

Для этой модели нужно много речи. Ниже базы, которые в этом помогут.

Обработка текста

Первой задачей будет обработка текста. Представим текст в том виде, в котором он будет в дальнейшем озвучен. Числа представим прописью, а сокращения раскроем. Подробнее можно почитать в статье посвященной синтезу. Это тяжелая задача, поэтому предположим, что к нам поступает уже обработанный текст (в базах выше он обработан).

Следующим вопросом, которым следуют задаться, это использовать ли графемную, или фонемную запись. Для одноголосного и одноязычного голоса подойдет и буквенная модель. Если хотите работать с многоголосой многоязычной моделью, то советую использовать транскрипцию (Гугл тоже).

G2P

Для русского языка существует реализация под названием russian_g2p. Она построена на правилах русского языка и хорошо справляется с задачей, но имеет минусы. Не для всех слов расставляет ударения, а также не подходит для многоязычной модели. Поэтому возьмём созданный ей словарь, добавим словарь для английского языка и скормим нейронной сети (например этим 1, 2)

Прежде чем обучать сеть, стоит подумать, какие звуки из разных языков звучат похоже, и можно им выделить один символ, а для каких нельзя. Чем больше будет звуков, тем сложнее модели учиться, а если их будет слишком мало, то у модели появиться акцент. Не забудьте ударным гласным выделять отдельные символы. Для английского языка вторичное ударение играет малую роль, и я бы его не выделял.

Кодирование спикеров

Сеть схожа с задачей идентификации пользователя по голосу. На выходе у разных пользователей получаются разные вектора с числами. Предлагаю использовать реализацию самого CorentinJ, которая основана на статье. Модель представляет собой трехслойный LSTM с 768 узлами, за которыми следует полносвязный слой из 256 нейронов, дающие вектор из 256 чисел.

Опыт показал, что сеть, обученная на английской речи, хорошо справляется и с русской. Это сильно упрощает жизнь, так как для обучения требуется очень много данных. Рекомендую взять уже обученную модель и дообучить на английской речи из VoxCeleb и LibriSpeech, а также всей русской речи, что найдёте. Для кодера не нужна текстовая аннотация фрагментов речи.

Тренировка

  1. Запустите python encoder_preprocess.py <datasets_root> для обработки данных
  2. Запустите «visdom» в отдельном терминале.
  3. Запустите python encoder_train.py my_run <datasets_root> для тренировки кодировщика

Синтез

Перейдём к синтезу. Известные мне модели не получают звук напрямую из текста, так как, это сложно (слишком много данных). Сначала из текста получается звук в спектральной форме, а уже потом четвертая сеть будет переводить в привычный голос. Поэтому сначала поймём, как спектральное вид связанна с голосом. Проще разобраться в обратной задаче, как из звука получить спектрограмму.

Звук разбивается на отрезки длинной 25 мс с шагом 10 мс (по умолчанию в большинстве моделей). Далее с помощью преобразования Фурье для каждого кусочка вычисляется спектр (гармонические колебания, сумма которых даёт исходный сигнал) и представляется в виде графика, где вертикальная полоса — это спектр одного отрезка (по частоте), а по горизонтальной — последовательность отрезков (по времени). Этот график называется спектрограммой. Если же частоту закодировать нелинейно (нижние частоты качественнее, чем верхние), то изменится масштаб по вертикали (нужно для уменьшения данных) то такой график называют Mel спектрограммой. Так устроен человеческий слух, что небольшое отклонение на нижних частотах мы слышим лучше, чем на верхних, поэтому качество звука не пострадает

Существует несколько хороших реализаций синтеза спектрограмм, такие как Tacotron 2 и Deepvoice 3. У каждой из этих моделей есть свои реализации, например 1, 2, 3, 4. Будем использовать(как и CorentinJ) модель Tacotron от Rayhane-mamah.

Tacotron основан на сети seq2seq с механизмом внимания. Ознакомитесь с подробностями в статье.

Тренировка

Не забудьте отредактировать utils/symbols.py, если будете синтезировать не только английскую речь, hparams.pу, а так же preprocess.py.

Для синтеза нужно много чистого, хорошо размеченного звука разных спикеров. Здесь чужой язык не поможет.

  1. Запустите python synthesizer_preprocess_audio.py <datasets_root> для создания обработанного звука и спектрограмм
  2. Запустите python synthesizer_preprocess_embeds.py <datasets_root> для кодирования звука (получения признаков голоса)
  3. Запустите python synthesizer_train.py my_run <datasets_root> для тренировки синтезатора

Вокодер

Теперь осталось только преобразовать спектрограммы в звук. Для этого служит последняя сеть — вокодер. Возникает вопрос, если спектрограммы получаются из звука с помощью преобразования Фурье, нельзя ли с помощью обратного преобразования получить снова звук? Ответ и да, и нет. Гармонические колебания, из которых состоит исходный сигнал, содержат как амплитуду, так и фазу, а наши спектрограммы содержат информацию только об амплитуде (ради сокращения параметров и работаем со спекрограммами), поэтому если мы сделаем обратное преобразование Фурье, то получим плохой звук.

Для решения этой проблемы придумали быстрый алгоритм Гриффина-Лима. Он делает обратное преобразование Фурье спектрограммы, получая «плохой» звук. Далее делает прямое преобразования этого звука и получают спектр, в котором уже содержится немножко информации о фазе, причём амплитуда в процессе не меняется. Далее берётся еще раз обратное преобразование и получается уже более чистый звук. К сожалению, качество сгенерированной таким алгоритмом речи оставляет желать лучшего.

На его смену пришли нейронные вокодеры, такие как WaveNet, WaveRNN, WaveGlow и другие. CorentinJ использовал модель WaveRNN за авторством fatchord

Для предобработки данных используется два подхода. Либо получить спектрограммы из звука (с помощью преобразования Фурье), или из текста (с помощью модели синтеза). Google рекомендует второй подход.

Тренировка

  1. Запустите python vocoder_preprocess.py <datasets_root> для синтеза спектрограмм
  2. Запустите python vocoder_train. py <datasets_root> для вокодера

Итого

Мы получили модель многоязычного синтеза речи, умеющей клонировать голос.

Запустите toolbox: python demo_toolbox.py -d <datasets_root>

Примеры можно послушать тут

Советы и выводы

  • Нужно много данных (>1000 голосов, >1000 часов)
  • Скорость работы сравнима с реальным временем только при синтезе минимум 4 предложений
  • Для кодера используйте предобученную модель для английского языка, немножко дообучив. Она справляется хорошо
  • Синтезатор, обученный на «чистых» данных, работает лучше, но хуже клонирует, чем тот, кто обучался на большем объёме, но грязных данных
  • Модель хорошо работает только на данных, на которых училась

Можете синтезировать свой голос онлайн с помощью colab, или посмотреть мою реализацию на github и скачать мои веса.

Речевой синтезатор онлайн.

Как это работает: синтез речи

Синтезаторы речи — это программы, на вход которых подаётся текст, а на выходе синтезируется человеческая речь. Эти программы имеют широкое применение — в телефонии, электронных ассистентах-помощниках, для телефонного доступа к веб-приложениям, в образовательных целях, в кол-центрах и т.п. Основные голосовые движки для воспроизведения русской речи — Realspeak, Digalo и Sakrament от компаний Nuance, Acapela и Sakrament соответственно.

Синтезаторы речи, работающие под Windows-системами:

Digalo (Acapela ELAN TTS)
Синтезаторы речи Acapela доступны на 23 языках, в том числе, и на русском и могут разговаривать более чем 50 голосами. Есть возможность использования в нескольких программах одновременно (многоканальность). Качественное русское произношение, большой словарь русских слов и ударений, всевозможные настройки и параметры воспроизведения. Наиболее качественный голосовой пакет — «Николай».

Nuance RealSpeak (ранее ScanSoft)
Поддерживает более 20 языков включая китайский, норвежский и корейский и 30 голосов. Голос, звучащий на русском языке — «Катерина». По многим параметрам это даже гораздо более удачное решение для русского языка, чем Digalo. Полностью поддерживает SAPI5. Программа распространяется только на коммерческой основе.

Sakrament TTS Engine
Программа умеет воспроизводить тексты на русском языке. На русском есть и версия сайта компании. Линейка продуктов Sakrament включает в себя приложение для коммуникаторов и КПК, программа для озвучивания электронных учебников и документов. В пакете для русского языка можно выбирать из трех голосов («Ольга», «Ирина», «Вячеслав»). Поддерживает входные форматы RTF и TXT, автоматически распознает кодировку текста, полностью поддерживает SAPI Speech Tags и дополнительные тэги семантической разметки текста для улучшения звучания синтезированной речи. Посредством тэгов можно задавать ударение, тип фрагмента текста (дата, время, адрес, URL, e-mail, телефон, аббревиатура и т.д.), параметры воспроизведения (громкость, скорость, интонация), а также другие параметры.

CoolReader
Программа для комфортного чтения книг с экрана, чтения вслух, форматирования и конвертирования текстов. Функция чтения вслух разработана с использованием движков MS SAPI 4.0 × 5.1. Работает в том числе и с текстами на русском языке. Распознает форматы HTML, RTF, DOC (MS Word), TXT, FB2 (FictionBook). Автоматически распознает русские кодировки dos, win, koi-8, а также latin, utf-8 и unicode. Можно сохранить аудиокнигу в формате MP3 для прослушивания на MP3 плеере. Отдельно подключаются словари произношений с настройками для каждого голосового движка. Поддерживаемые операционные системы: Win9x/ME/NT4.0/Win2K/XP.

ToM Reader
Приложение представляет собой просмотрщик текстов и речевой синтезатор одновременно. Работает в том числе и на русском языке. Позволяет создавать из текстов MP3-файлы, есть возможность подключения словарей произношения, умеет работать с zip архивами. Поддерживаемые форматы файлов: HTML, RTF, MS Word, TXT, кодировки: ANSI, KOI, OEM. Максимальный размер открываемого файла — 12 Мб.

Speak Aloud — программа для чтения и сохранения в файл с конвертированием текста форматов TXT, PDF, HTML, RTF в аудио MP3, WAV, WMA, OGG, VOX, AU, AIFF, MP4, FLAC, SWF. Можно настраивать интонации, тембр звучащего голоса и качество воспроизведения звука. Поддерживается пакетная обработка файлов. Работает под операционными системами: Windows 2000/XP/Vista

Govorilka
Воспроизводит текст на русском языке. Возможна запись читаемого текста в звуковой файл (*.WAV, *.MP3), а также регулирование скорости чтения и высоты озвучивающего голоса. Можно добавлять словари произношений, и таким образом довольно легко корректировать произношение отдельных слов и словосочетаний. Может работать с большими файлами, открывает тексты из файлов.doc, HTML. Также запоминает позицию курсора при выходе из программы (чтобы потом начать чтения с того же самого места).

Речевые синтезаторы, установленные на компьютеры или мобильные устройства, уже не кажутся такими необычными программами, как раньше. Благодаря современным технологиям обычный настольный ПК может воспроизводить человеческий голос.

Каким образом работают синтезаторы речи? Где они применяются? Какой самый лучший речевой синтезатор? Ответы на эти и другие вопросы изложены в данной статье.

Общее понятие

Синтезаторы речи являются специальными программами, состоящими из некоторого количества модулей, которые предоставляют возможность перевести набранные тексты в озвученные человеческим голосом предложения. Не стоит думать, что вся база слов и фраз записана реальными людьми в профессиональных студиях. Выполнить подобную задачу физически невозможно. Библиотеку с таким большим количеством фраз нельзя установить ни на один современный компьютер, не говоря уже о мобильных телефонах. Для этого разработчики создали технологию Text-to-Speech.

Сфера применения

Синтезаторы речи используются при изучении иностранных языков, прослушивании текстов на страницах книг, создании вокальных партий, выдаче поисковых запросов в форме озвученных фраз и т. п.

Какие разновидности программ существуют? В зависимости от сферы применения утилиты можно разделить на 2 вида: обычные, преобразующие набранный текст в речь, и специальные вокальные модули, используемые в музыкальных приложениях.

Преимущества и недостатки

На данный момент компьютер синтезирует человеческую речь только приблизительно. В простейших программах можно наблюдать проблемы со звуком и правильной постановкой ударений в различных словах. Синтезаторы речи, установленные на мобильные устройства, расходуют много энергии. Нередко можно отметить несанкционированную загрузку дополнительных модулей.

К преимуществам следует отнести удобство восприятия. Многим пользователям гораздо проще усваивать звуковую информацию, нежели какую-либо другую.

Лучшие речевые синтезаторы с русскими голосами

Программа RHVoice была создана Ольгой Яковлевой. Стандартный вариант приложения включает 3 голоса. Настройки очень просты. Программу можно использовать и как самостоятельное приложение, совместимое с SAPI5, и как дополнительный экранный модуль.

Речевой синтезатор Acapela отличается от аналогов идеальным озвучиванием текста. Приложение поддерживает более 30 языков мира. В бесплатной версии доступен лишь 1 женский голос.

Программа Vocalizer часто применяется в call-центрах. Пользователь может настроить постановку ударения, громкость и скорость чтения. При необходимости загружаются дополнительные словари. В приложении есть 1 женский голос. Речевой движок автоматически встраивается в программы для чтения книг в электронном формате.

Утилита eSpeak поддерживает свыше 50 языков. Недостатком программы можно считать сохранение звуковых файлов лишь в формате WAV, который требует много места на жестком диске.

Приложение Festival является мощнейшей утилитой синтеза речи, поддерживающей даже финский язык и хинди.

Установка программы

Как использовать приложения такого типа? Для начала нужно установить программу. В компьютерных ОС применяется стандартный инсталлятор, в котором пользователю остается выбрать лишь поддерживаемый утилитой языковой модуль. Установщик для мобильных устройств можно скачать с официального сайта, Google Play, а также App Store. Инсталляция приложения происходит в автоматическом режиме.

Первый запуск программы

На данном этапе пользователю достаточно установить язык по умолчанию. Иногда требуется отметить качество звучания. Стандартный вариант подразумевает частоту дискретизации 4410 Гц, глубину 16 бит и битрейт 128 кбит/с. В мобильных ОС показатели могут быть ниже. В качестве основы используется определенный голос.

Фильтры и эквалайзеры помогают достичь необходимого звучания. Пользователю доступны три варианта перевода текста. Он может набрать на клавиатуре предложения, включить озвучивание уже имеющегося файла или установить в браузере расширение, которое преобразует содержимое на веб-страницах в речь. Достаточно отметить необходимый вариант действий, тембр голоса и язык, на котором будет произноситься текст. Для включения процесса воспроизведения требуется кликнуть по кнопке «Старт».

Работа со сложными программами

В музыкальных приложениях настройки гораздо сложнее. В речевом модуле программы FL Studio пользователь может выбрать несколько видов голосов, а также указать тональность и скорость воспроизведения. Постановка ударений перед слогами осуществляется с помощью символа «_». С помощью подобного речевого синтезатора можно создать лишь роботизированный голос.

Программа Vocaloid относится к приложениям профессионального типа. Помимо обычных параметров, пользователь может выбирать артикуляцию и глиссандо. В утилите есть база с вокалом профессионалов. При желании можно подгонять под ноты целые предложения. Одна только библиотека с вокалом занимает более 4 Гб в сжатом виде.

«Синтезатор речи Google»: что это за программа

В мае 2014 года компания предоставила пользователям возможность опробовать новый бесплатный продукт. Что такое «Синтезатор речи Google» на «Андроиде»? Это программа, озвучивающая текст на экране мобильного устройства или планшета. Теперь нет необходимости устанавливать сторонние утилиты, которые требуют наличия лицензии. «Синтезатор речи Google» используется при чтении электронных книг, прослушивании правильного произношения слов, запуске приложения TalkBack.

Новая версия программы «Синтезатор речи Google 3.1» получила функцию поддержки английского, итальянского, испанского, корейского, немецкого, нидерландского, польского, португальского, русского и французского языков. Где найти голосовые пакеты? Они загружаются из самого приложения.

Преимущества и недостатки продукта от Google

Особенностями русскоговорящего женского голоса является четкое, громкое звучание и плавная интонация. Скорость воспроизведения можно регулировать в настройках программы. Пользователи, использующие TalkBack и русскую языковую локализацию ОС Android, должны проявлять осторожность при переключении на речевой синтезатор, если ранее в приложении по умолчанию был установлен другой голос. Могут возникнуть проблемы, связанные с сохранением контроля над мобильным устройством на слух. Практически все голоса, кроме русского, неспособны обрабатывать предложения на кириллице.

Среди минусов можно отметить задержку реакции на чтение текстов, состоящих из фраз на разных языках. Русский голос отличается металлическими нотками тембра. Можно услышать дребезжащий звук на низких частотах. К преимуществам можно отнести стабильность работы приложения и приемлемое качество чтения англоязычных слов.

«Синтезатор речи Google»: как пользоваться программой

Для того чтобы утилита заработала как надо, требуется обновить ее до последней версии. Чтобы активировать процесс озвучивания текста, нужно открыть настройки. В разделе «язык и ввод» необходимо поставить флажок на пункте «синтез речи». Тут же следует отметить строку «система по умолчанию». Не стоит забывать о том, что голосовые пакеты в самой программе также нуждаются в обновлении.

Проблемы при работе с утилитой

При необходимости пользователь может отключить приложение. В самых простых утилитах кнопка остановки находится в самой программе. Деактивация расширения, установленного в браузере, производится путем отключения дополнения или полного удаления плагина. При работе с программой на мобильном телефоне также могут возникнуть проблемы. Дело в том, что синтезатор речи автоматически включает загрузку ненужных пользователю языковых модулей.

Данный процесс занимает много времени и существенно расходует трафик. Как отключить «Синтезатор речи Google» на мобильном устройстве и избавиться от этой проблемы? Для начала нужно открыть настройки приложения. Потом необходимо выбрать раздел «язык и голосовой ввод». Далее нужно отметить последнюю строку.

Выбрав голосовой поиск, следует кликнуть по крестику у пункта «распознавание речи офлайн». Затем рекомендуется удалить кэш приложений. Далее требуется перезагрузить мобильный телефон. Чтобы полностью отключить утилиту, необходимо открыть в настройках раздел «приложения», выбрать в списке синтезатор речи и кликнуть по кнопке «остановить».

Удаление программы

Бывает так, что пользователь вообще не использует «Синтезатор речи Google». Можно ли удалить утилиту с мобильного устройства? Для этого нужно открыть Google Play. Затем следует выбрать в перечне установленных программ синтезатор речи и кликнуть по кнопке «удалить».

Итоги

Обычным пользователям и людям с ограниченными возможностями подойдут приложения с простым интерфейсом. Это может быть как RHVoice, так и «Синтезатор речи Google». Русский голос озвучит отображаемый на экране текст. Большего рядовому пользователю не требуется.

Музыкантам рекомендуется отдавать предпочтение профессиональной программе Vocaloid. В приложении есть дополнительные голосовые библиотеки и множество различных опций. Программа позволит получить естественное звучание голоса. Ведь музыкантам так важно, чтобы компьютерный синтез не ощущался на слух.

Сегодня синтезаторы речи, применяемые в стационарных компьютерных системах или мобильных устройствах, чем-то необычным уже не кажутся. Технологии шагнули далеко вперед и позволили воспроизвести человеческий голос. Как все это работает, где применяется, каков лучший речевой синтезатор и с какими потенциальными проблемами может столкнуться пользователь, смотрите ниже.

Что представляют собой речевые синтезаторы и где они применяются?

Синтезаторы речи представляют собой специальные программы, состоящие из нескольких модулей, которые позволяют переводить набранный на клавиатуре текст в обычную человеческую речь в виде звукового сопровождения.

Было бы наивно полагать, что сопутствующие библиотеки содержат абсолютно все слова или возможные фразы, записанные в студиях реальными людьми. Это просто физически невозможно. К тому же библиотеки фраз имели бы такой размер, что установить их даже на современные винчестеры большого объема, не говоря уже о мобильных девайсах, просто не представлялось бы возможным.

Для этого была разработана технология, получившая название Text-to-Speech (перевод текста в речь).

Наиболее широкое распространение синтезаторы речи получили в нескольких областях, к которым можно отнести самостоятельное изучение иностранных языков (программы нередко имеют поддержку в 50 языков и более), кода нужно услышать правильное произношение слова, прослушивание текстов книг вместо чтения, создание речевых и вокальных партий в музыке, использование их людьми с ограниченными возможностями, выдача поисковых запросов в виде озвученных слов и фраз и т. д.

Разновидности программ

В зависимости от области применения, все программы можно разделить на два основных типа: стандартные, непосредственно преобразующие текст в речь, и речевые или вокальные модули, применяемые в музыкальных приложениях.

Для более полного понимания картины рассмотрим оба класса, но больший упор будет сделан все-таки на синтезаторы речи в их непосредственном назначении.

Плюсы и минусы простейших речевых приложений

Что же касается преимуществ и недостатков программ такого типа, сначала рассмотрим все-таки недостатки.

Прежде всего нужно четко понимать, что компьютер — он и есть компьютер, который на данном этапе развития человеческую речь может синтезировать весьма приблизительно. В простейших программах зачастую наблюдаются проблемы с постановкой ударений в словах, пониженное качество звука, а в мобильных устройствах — повышенное энергопотребление, а иногда и несанкционированная загрузка речевых модулей.

Но и преимуществ хватает, ведь очень многие звуковую информацию воспринимают гораздо лучше, нежели визуальную. Удобство восприятия налицо.

Как пользоваться синтезатором речи?

Теперь несколько слов об основных принципах использования программ такого типа. Установить синтезатор речи любого типа можно без особых проблем. В стационарных системах используется стандартный инсталлятор, где основной задачей станет выбор поддерживаемых языковых модулей. Для мобильных девайсов установочный файл можно скачать из официального магазина или хранилища вроде Google Play или AppStore, после чего приложение инсталлируется в автоматическом режиме.

Как правило, при первом запуске никаких настроек, кроме установки языка по умолчанию, производить не нужно. Правда, иногда программа может предложить выбрать качество звучания (в стандартном варианте, применяемом повсеместно, частота дискретизации 4410 Гц, глубина 16 бит и битрейт 128 кбит/с). В мобильных устройствах эти показатели ниже. Тем не менее за основу берется определенный голос. С использованием стандартного шаблона произношения путем применения фильтров и эквалайзеров достигается звучание именно такого тембра.

В использовании можно выбрать несколько вариантов перевода текста: ввод текста вручную, озвучивание уже имеющего текста из файла, интеграция в другие приложения (например, веб-браузеры) с активацией выдачи поисковых результатов или прочтения текстового содержимого на страницах онлайн. Достаточно выбрать нужный вариант действий, язык и голос, которым все это будет произноситься. Многие программы имеют несколько разновидностей голосов: как мужских, так и женских. Для активации процесса воспроизведения обычно используется кнопка старта.

Если говорить о том, как отключить синтезатор речи, тут может быть несколько вариантов. В самом простом случае используется кнопка остановки воспроизведения в самой программе. В случае интеграции в браузер деактивация производится в настройках расширений или полным удалением плагина. А вот с мобильными устройствами, несмотря на непосредственное отключение, могут быть проблемы, о которых будет сказано отдельно.

В музыкальных программах настройки и ввод текста намного сложнее. Например, в приложении FL Studio есть свой речевой модуль, в котором можно выбрать несколько изменить настройки тональности, скорости воспроизведения и т. д. Для постановки ударений перед слогом используется символ «_». Но и такой синтезатор годится только для создания роботизированных голосов.

Но вот пакет Vocaloid от Yamaha относится к программам профессионального типа. Технология Text-to-Speech здесь реализована в наиболее полном объеме. В настройках, помимо стандартных параметров, можно выставить артикуляцию, глиссандо, использовать библиотеки с вокалом профессиональных исполнителей, составлять слова и фразы, подгоняя их под ноты, и еще кучу всего. Неудивительно, что пакет только с одним вокалом занимает порядка 4 Гб и более в установочном дистрибутиве, а после распаковки — вдвое-втрое больше.

Синтезаторы речи с русскими голосами: краткий обзор самых популярных

Но вернемся к самым простым приложениям и рассмотрим самые популярные из них.

RHVoice — по мнению большинства экспертов, лучший синтезатор речи, являющийся российской разработкой авторства В стандартном варианте доступно три голоса (Александр, Ирина, Елена). Настройки просты. А само приложение может использоваться и как самостоятельная программа, совместимая с SAPI5, и как экранный модуль.

Acapela — достаточно интересное приложение, главной особенностью которого является почти идеальная озвучка текста более чем на 30 языках мира. В обычной версии, правда, доступен только один голос (Алена).

Vocalizer — мощное приложение с женским голосом Milena. Очень часто эта программа применяется в call-центрах. Имеется множество настроек постановки ударения, громкости, скорости чтения и установки дополнительных словарей. Главное отличие состоит в том, что речевой движок может встраиваться в программы вроде Cool Reader, Moon+ Reader Pro или Full Screen Caller ID.

Festival — мощнейшая утилита синтеза и распознавания речи, созданная для систем Linux и Mac OS X. Приложение поставляется с открытым исходным кодом и, помимо стандартных языковых пакетов, имеет поддержку даже финского языка и хинди.

eSpeak — речевое приложение, поддерживающее более 50 языков. Главным недостатком считается сохранение файлов с синтезированной речью исключительно в формате WAV, который занимает уж очень много места. Зато программа является кроссплатформенной и может использоваться даже в мобильных системах.

Проблемы с синтезатором речи в Google Android

При установке «родного» синтезатора речи от Google, пользователи постоянно жалуются на то, что он самопроизвольно включает загрузку дополнительных языковых модулей, что может не только занимать достаточно длительный промежуток времени, но еще и расходует трафик.

Избавиться от этого в Android-системах можно очень просто. Для этого используем меню настроек, далее переходим в раздел языка и голосового ввода, выбираем голосовой поиск и на параметре распознавания речи оффлайн нажимаем на крестик (отключение). Дополнительно рекомендуется почистить кэш приложений и перезагрузить устройство. Иногда может потребоваться в самом приложении отключить показ уведомлений.

Что в итоге?

Поводя некий итог, можно сказать, что в большинстве случаев рядовым пользователям подойдут самые простые программы. Во всех рейтингах лидирует RHVoice. Но для музыкантов, которые хотят добиться естественного звучания голоса, чтобы разница между живым вокалом и компьютерным синтезом не ощущалась на слух, лучше отдать предпочтение программам типа Vocaloid, тем более что для них выпускается множество дополнительных голосовых библиотек, а настройки имеют столько возможностей, что примитивные приложения, как говорится, и рядом не стояли.

– процесс генерации речевого сигнала — технология, которая дает возможность прочитать текст (документ, письмо, смс) голосом, приближенном к естественному. Для того, чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне тембра, плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков.

Технология синтеза может быть востребована как в узкой предметной области, так и в широкой, или неограниченной. Для узкой области качество звучания может быть сведено к максимально естественной, за счёт компиляции заранее записанных длительных речевых фрагментов, относящихся к данной области. Примером такого синтеза (называемого макросинтезом) могут служить системы оповещения о движении поездов, применяющиеся на вокзалах больших городов в России. Гораздо сложнее сделать синтезатор речи для неограниченного текста любой предметной области. В таком случае пользователь может задать системе синтеза на произношение любую фразу или предложение.

Программы экранного доступа

Программа экранного доступа VIRGO 4
— это итог многолетней работы фирмы BAUM по развитию программы VIRGO, главная цель которой состоит в обеспечении комфортной работы слепых и слабовидящих пользователей с Windows. VIRGO 4 позволяет пользователю выбирать, какую информацию показывать на брайлевском дисплее, а какую произносить голосом. Слабовидящие пользователи могут также воспользоваться интегрированной в VIRGO 4 системой увеличения экрана ГАЛИЛЕО. Комплексный подход VIRGO 4, использующий брайль и речь, гибко сочетает силу обоих методов вывода информации для удобства пользователя.

Дополнительная информация

История

У синтеза речи долгая история, обросшая легендами. Ещё в Х веке Герберту Аврилакскому приписывали владение искусством изготовления терафима — говорящей мёртвой головы. Сделанная из бронзы , эта голова словами «да» и «нет» отвечала на вопросы любого к ней обращавшегося. В середине XIII века монах-доминиканец Альберт фон Больштедт и английский философ и естествоиспытатель Роджер Бэкон также пытались создавать первые образцы «говорящих голов».
В конце XVIII века датский учёный Христиан Кратценштейн , действительный член Российской Академии Наук , создал модель речевого тракта человека, способную произносить пять долгих гласных звуков (а
, э
, и
, о
, у
). Модель представляла собой систему акустических резонаторов различной формы, издававших гласные звуки при помощи вибрирующих язычков, возбуждаемых воздушным потоком. В австрийский учёный Вольфганг фон Кампелен дополнил модель Кратценштейна моделями языка и губ и представил акустическо-механическую говорящую машину , способную воспроизводить определённые звуки и их комбинации. Шипящие и свистящие выдувались с помощью специального меха с ручным управлением. В учёный Чарльз Уитстоун (Charles Wheatstone
) представил улучшенный вариант машины, способный воспроизводить гласные и большинство согласных звуков. А в

Недавно передо мной встала проблема выбора голосового синтезатора речи. Основные требования — это поддержка русского языка и более-менее нормальное произношение.
Для тех, кто не в курсе того, что такое синтезатор речи, расскажу — это специальная программа, смысл работы которой заключается в преобразовании письменного текста в устную речь. Это и есть так называемый синтез.
Зачем это надо? Ну, например, когда надо записать голосовое сообщение чужим голосом. Иностранцам оно может быть полезно для того, чтобы услышать произношение того или иного слова. Синтезатор речи удобен для чтения, когда надо включить ребенку сказку, которой нет в аудиокнигах. Да и вообще, ситуации всякие бывают.
Так вот, в процессе выбора я нашел несколько очень полезных инструментов, среди которых работающих в режиме онлайн с поддержкой русского языка и сейчас я Вам о них и расскажу.

Переводчик Google

Вот поистине многоцелевой продукт, которых можно использовать совершенно по-разному. Главные преимущества:
— это совершенно бесплатный сервис;
— работа в режиме Онлайн без установки. Нужен только доступ в Интернет;
— на мой взгляд этот синтезатор речи имеет лучший голосовой модуль, самое близкое к натуральному;
— наверное самая лучшая команда разработчиков и техподдержка в мире;
— самое большое количество поддерживаемых языков.
К сожалению, вариант голоса только один — женский. Выбора я не нашел.

RHVoice

Отличный многоязычный синтезатор речи от российского разработчика — Ольги Яковлевой. Есть версии, как для операционных систем семейства Windows, так и для Linux. Разработчик синтезатора — Ольга Яковлева. Программа распространяется совершенно бесплатно и доступна на официальном сайте в двух вариантах: как SAPI5-совместимая самостоятельная версия и как модуль для бесплатной программы экранного доступа NVDA. Этот синтезатор голосовой речи умеет озвучивать русские тексты тремя голосами — Елена, Ирина и Александр.

Acapela

Acapela — это, пожалуй, один из самых популярных и распространенных голосовых синтезаторов в мире. Главная особенность — это озвучка текстов более чем на тридцати языках мира. Если рассматривать русский язык, то тут доступны два голоса — Николай и Алена. Причем последний более совершенен и естественен в плане произношения. В демонстрационном режиме на сайте доступен только голос Алена.
Программа доступна для скачивания на официальном сайте и поддерживает все популярные современные операционные системы — Windows, Linux, Mac. Есть даже версии для Android u iOS.

Vokalizer

Женских голос Milena — это ещё один очень популярный движок голосового синтезатора речи от компании Nuance — он очень высококачественный и естественно звучащий. Его Вы можете услышать в call-центрах и в различных сетевых речевых системах, а также в различных приложениях приложениях — таких как Moon+ Reader Pro, Full Screen Caller ID , Cool Reader, в навигационной программах TomTom, iGo Primo.
Среди плюсов можно отметить возможность установки различных словарей, регулировки громкости, ударения и скорости чтения.
Код программы открытый, скачать его бесплатно можно на официальном сайте, собственно как и инсталлятор самой программы.

Festival

Festival — это не просто очередной голосовой речевой синтезатор, а уже целая система распознавания и синтеза речи с различными API. Разработчик — Исследовательский Центр Речевых Технологий университета Эдинбурга.
Festival предназначен для поддержки нескольких языков. По умолчанию поддерживает английский, валлийский и испанский языки. Но есть возможность подключить голосовые пакеты других языков: чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу.
Код программы открытый, сам голосовой синтезатор распространяется по лицензии open source и доступна только для операционных систем Linux. Правда есть портированная версия по Макинтош.

ESpeak

Последняя в моём обзоре система синтеза речи — программа ESpeak — разрабатывается уже около 8 лет. Последняя версия — 1.48.04 от 6 апреля 2014. Данный голосовой синтезатор речи кроссплатформенный — есть версии под Windows, Linux, Mac OS X, и даже под RISC OS, хотя последние две уже давно не поддерживаются.
Отдельно отмечу, что eSpeak используется в мобильных операционных системах Android, правда имеет при этом ряд существенных ошибок.
Программа поддерживает пятидесяти различных языков, поддержка которых указывается при установке программы.
Один из главных минусов это голосового синтезатора — генерирование голоса только в файл формата WAV. Скачать программу бесплатно можно на официальном сайте.

От себя добавлю лишь, что мне понравились RHVoice и Vokalizer, хотя тут во много дело индивидуальное и во многом зависит от того, что Вы хотите получить. Так что пробуйте, ставьте и смотрите. Я думаю, что один из представленных вариантов Вам обязательно должен подойти.

Как преобразовать аудиозапись в текст

Над созданием анализаторов речи лучшие умы человечества бьются не первое десятилетие, но до настоящего времени в мире пока не существует программы, безошибочно распознающей человеческую речь и автоматически преобразующей её в текст. В этой статье я расскажу о том, как делается преобразование речи в текст, и какие для этого есть программы.

Транскрипция аудиозаписей в стенограмму на сегодняшний день осуществляется профессиональными расшифровщиками вручную при многократном прослушивании исходного материала и одновременном наборе его в текстовых редакторах. Центральной задачей при этом становится восстановление текста, а также установление принадлежности реплик определенному лицу (при множестве лиц, участвовавших в разговоре) при помощи метода слухового исследования материала и проводится на базе аппаратуры и программных средств, предназначенных для воспроизведения фонограмм, усиления и коррекции акустических сигналов.

При этом не последнюю роль играет разборчивость речи, а именно, степень понимания речи слушателями. При низком качестве предоставленных аудиозаписей процесс усложняется в разы.

Как видно из всего вышеперечисленного, процесс по составлению стенограммы аудиозаписей достаточно трудоёмок и нередко требует усилий со стороны нескольких специалистов, как то: профессиональные расшифровщики, редакторы и корректоры.
В среднем у расшифровщика на транскрипцию десятиминутной фонограммы уходит примерно час.

Таким образом, за один день удаётся расшифровать приблизительно от 2-х до 4-х часов записи в зависимости от её качества. Распределяя полученный от заказчика материал между несколькими специалистами одного профиля, процесс расшифровки аудио в текст удаётся ускорить, а качество готовой стенограммы повысить.

Программы для преобразования голоса в текст

Незаменимыми помощниками в этом нелёгком деле выступают специальные программы, предназначенные для стенографирования аудиозаписей при их многократном прослушивании. Обычно данные программы снабжены текстовыми редакторами и аудиоплеерами с эквалайзерами. Они позволяют изменять скорость проигрывания записи, устанавливать временное кольцо повтора определённого фрагмента, а также зачастую обладают функциями шумоочистки.
Вот лишь несколько из множества программ для преобразования голоса в текст

Многие из этих программных средств можно скачать в интернете бесплатно. Только не будем забывать, что не одна программа не сможет заменить опытного специалиста. По крайней мере, пока.

лучше, дешевле, быстрее — Будущее на vc.ru

Человеческий голос – потрясающе мощный инструмент, способный передавать огромный спектр эмоций. Один тембр может заставить нас плакать от радости или печали, а другой – вогнать в сон от тоски и скуки. И все это определяется уникальными голосовыми связками и личностью говорящего, который точно доносит до нас информацию и эмоции. Именно поэтому талантливых актеров озвучки найти не так-то и просто, а сделать хороший аудио продукт стоит немалых денег и времени.

{«id»:124495,»url»:»https:\/\/vc.ru\/future\/124495-ozvuchka-dlya-novogo-pokoleniya-luchshe-deshevle-bystree»,»title»:»\u041e\u0437\u0432\u0443\u0447\u043a\u0430 \u0434\u043b\u044f \u043d\u043e\u0432\u043e\u0433\u043e \u043f\u043e\u043a\u043e\u043b\u0435\u043d\u0438\u044f: \u043b\u0443\u0447\u0448\u0435, \u0434\u0435\u0448\u0435\u0432\u043b\u0435, \u0431\u044b\u0441\u0442\u0440\u0435\u0435″,»services»:{«facebook»:{«url»:»https:\/\/www.facebook.com\/sharer\/sharer.php?u=https:\/\/vc.ru\/future\/124495-ozvuchka-dlya-novogo-pokoleniya-luchshe-deshevle-bystree»,»short_name»:»FB»,»title»:»Facebook»,»width»:600,»height»:450},»vkontakte»:{«url»:»https:\/\/vk.com\/share.php?url=https:\/\/vc.ru\/future\/124495-ozvuchka-dlya-novogo-pokoleniya-luchshe-deshevle-bystree&title=\u041e\u0437\u0432\u0443\u0447\u043a\u0430 \u0434\u043b\u044f \u043d\u043e\u0432\u043e\u0433\u043e \u043f\u043e\u043a\u043e\u043b\u0435\u043d\u0438\u044f: \u043b\u0443\u0447\u0448\u0435, \u0434\u0435\u0448\u0435\u0432\u043b\u0435, \u0431\u044b\u0441\u0442\u0440\u0435\u0435″,»short_name»:»VK»,»title»:»\u0412\u041a\u043e\u043d\u0442\u0430\u043a\u0442\u0435″,»width»:600,»height»:450},»twitter»:{«url»:»https:\/\/twitter. com\/intent\/tweet?url=https:\/\/vc.ru\/future\/124495-ozvuchka-dlya-novogo-pokoleniya-luchshe-deshevle-bystree&text=\u041e\u0437\u0432\u0443\u0447\u043a\u0430 \u0434\u043b\u044f \u043d\u043e\u0432\u043e\u0433\u043e \u043f\u043e\u043a\u043e\u043b\u0435\u043d\u0438\u044f: \u043b\u0443\u0447\u0448\u0435, \u0434\u0435\u0448\u0435\u0432\u043b\u0435, \u0431\u044b\u0441\u0442\u0440\u0435\u0435″,»short_name»:»TW»,»title»:»Twitter»,»width»:600,»height»:450},»telegram»:{«url»:»tg:\/\/msg_url?url=https:\/\/vc.ru\/future\/124495-ozvuchka-dlya-novogo-pokoleniya-luchshe-deshevle-bystree&text=\u041e\u0437\u0432\u0443\u0447\u043a\u0430 \u0434\u043b\u044f \u043d\u043e\u0432\u043e\u0433\u043e \u043f\u043e\u043a\u043e\u043b\u0435\u043d\u0438\u044f: \u043b\u0443\u0447\u0448\u0435, \u0434\u0435\u0448\u0435\u0432\u043b\u0435, \u0431\u044b\u0441\u0442\u0440\u0435\u0435″,»short_name»:»TG»,»title»:»Telegram»,»width»:600,»height»:450},»odnoklassniki»:{«url»:»http:\/\/connect.ok.ru\/dk?st.cmd=WidgetSharePreview&service=odnoklassniki&st. shareUrl=https:\/\/vc.ru\/future\/124495-ozvuchka-dlya-novogo-pokoleniya-luchshe-deshevle-bystree»,»short_name»:»OK»,»title»:»\u041e\u0434\u043d\u043e\u043a\u043b\u0430\u0441\u0441\u043d\u0438\u043a\u0438″,»width»:600,»height»:450},»email»:{«url»:»mailto:?subject=\u041e\u0437\u0432\u0443\u0447\u043a\u0430 \u0434\u043b\u044f \u043d\u043e\u0432\u043e\u0433\u043e \u043f\u043e\u043a\u043e\u043b\u0435\u043d\u0438\u044f: \u043b\u0443\u0447\u0448\u0435, \u0434\u0435\u0448\u0435\u0432\u043b\u0435, \u0431\u044b\u0441\u0442\u0440\u0435\u0435&body=https:\/\/vc.ru\/future\/124495-ozvuchka-dlya-novogo-pokoleniya-luchshe-deshevle-bystree»,»short_name»:»Email»,»title»:»\u041e\u0442\u043f\u0440\u0430\u0432\u0438\u0442\u044c \u043d\u0430 \u043f\u043e\u0447\u0442\u0443″,»width»:600,»height»:450}},»isFavorited»:false}

2019

просмотров

Давайте посмотрим на процесс поближе. Для того, чтобы сделать качественную озвучку вам понадобится (как минимум) хорошая, профессиональная звукозаписывающая студия (а стоят они совсем недешево) и «окошко» в забитом расписании вашего любимого актера. В зависимости от объема будущего продукта это «окошко» может быть от пары часов до пары недель или даже месяцев – и за все это время вы будете платить арендную плату, зарплаты сотрудников, налоги, страховку и всякие прочие накладные расходы. Для того, чтобы записать книгу объемом примерно 350 страниц, вам придется выложить, по вполне скромным подсчетам, где-то в районе $1000-$5000. Добавим к этому монтаж, редактирование, повторную запись для исправления ошибок и прочее, и в результате получается вполне серьезное капиталовложение.

{«url»:»https:\/\/booster.osnova.io\/a\/relevant?site=vc»,»place»:»between_entry_blocks»,»site»:»vc»,»settings»:{«modes»:{«externalLink»:{«buttonLabels»:[«\u0423\u0437\u043d\u0430\u0442\u044c»,»\u0427\u0438\u0442\u0430\u0442\u044c»,»\u041d\u0430\u0447\u0430\u0442\u044c»,»\u0417\u0430\u043a\u0430\u0437\u0430\u0442\u044c»,»\u041a\u0443\u043f\u0438\u0442\u044c»,»\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c»,»\u0421\u043a\u0430\u0447\u0430\u0442\u044c»,»\u041f\u0435\u0440\u0435\u0439\u0442\u0438″]}},»deviceList»:{«desktop»:»\u0414\u0435\u0441\u043a\u0442\u043e\u043f»,»smartphone»:»\u0421\u043c\u0430\u0440\u0442\u0444\u043e\u043d\u044b»,»tablet»:»\u041f\u043b\u0430\u043d\u0448\u0435\u0442\u044b»}},»isModerator»:false}

А что, если бы вам сказали, что этому процессу (и ценнику) существует прекрасная альтернатива, и что вы можете записать свою аудиокнигу всего за $100? Такое вообще возможно? А вот и да! Если в нашей повседневной жизни уже есть Алекса, Сири, Гугл-Ассистент и прочие виртуальные персонажи, помогающие нам выполнять различные бытовые задачи, то почему бы не взять примерно ту же самую идею и логически продолжить ее, в результате чего у вас под рукой окажется мощный, гибкий, но экономный инструментарий?

Несколько компаний-первопроходцев на сегодняшнем рынке уже делают именно это – они разрабатывают голосовых роботов, которые делают процесс быстрее, дешевле, и гораздо проще. Независимо от того, какую конкретно технологию они используют – применяют ли они нейронные сети, искусственный интеллект или глубокое обучение; создают ли они голоса, звучащие как роботы из старого научно-фантастического фильма, или используют сэмплы человеческого голоса для создания более естественного, интуитивно приятного и понятного звука – их роботы, преобразующие текст в речь, могут использоваться в широком ряде ситуаций, от чтения новостей и работы операторов в колл-центрах до создания аудиокниг, предоставления моментального автоматического устного перевода и многого, многого другого.

Среди компаний, занимающихся подобными разработками, есть такие гиганты как Амазон со своими проектом Polly и IBM, чьего робота зовут Watson – они создают недорогих высокопроизводительных роботов. Другие представители индустрии, как то, Acapela, ResponsiveVoice и ReadSpeaker, конкурируют в несколько другом сегменте рынка, в котором оплата базируется не на количестве преобразованных слов, а на годовой подписке. Каждый из таких продуктов имеет свои плюсы и минусы, использует разные подходы и в результате предоставляет пользователям разные уровни скорости, качества и цены, которые удовлетворяют потребности их соответствующей целевой клиентуры.

Тем временем, мы в компании Amai стараемся решить весь спектр этих задач. Большинство наших конкурентов предлагают роботы-голоса на частоте всего лишь 22 kHz, а мы сделали продукт, который работает на частоте 44 kHz. В результате получается кристально-чистый звук, без шума и искажений – и все это с естественными человеческими интонациями.

Для того, чтобы этого добиться, для начала мы берем файлы голосов профессиональных актеров и дикторов, записанные в самом высоком возможном качестве. Затем мы тренируем свои модели при помощи технологий искусственного интеллекта и понимания естественного языка. Получившиеся в результате роботы способны понимать пунктуацию – запятые, знаки вопроса, восклицательные знаки, – что позволяет им воспроизводить нюансы и интонации естественной человеческой речи. Мы также постоянно наращиваем скорость синтеза речи и совершенствуем качество нашего продукта.

Пример голоса

Давайте теперь обратимся к приведенному выше примеру аудиокниги. В старой парадигме процесс записи аудиокниги объемом примерно 350 страниц (около 1 миллиона знаков) занял бы у вас и вашей команды примерно 2 недели и обошелся бы в $1000-$5000. При помощи роботов Amai вы сможете ее записать всего за день (а это уже гигантская экономия времени), сидя за своим собственным компьютером, заплатив за весь проект всего лишь $99. Что еще нужно для счастья?

И если все это вам кажется неправдоподобным, то это только потому, что вы еще слышали наших роботов. Послушайте, посмотрите, попробуйте поиграть с настройками нашего демо – и сравните их с голосами наших конкурентов.

О способах перевода аудио и видео в текст

Автор: Николай Шмичков, агентство SEOQUICK

Знаете ли вы, что переписывая видео или аудио, можно значительно улучшить SEO-показатели? Для этого нужно транскрибировать материалы, которые вы регулярно публикуете на своем сайте или в блоге: различные семинары, обзоры и т.д. Если снабдить их соответствующими комментариями, можно получить некоторые преимущества перед конкурентами.

Аналитик Джон Мюллер подтвердил, что предоставление расшифровки улучшит индексирование аудиовизуального контента и сделает его более понятным.

Преимущества транскрибирования мультимедийного контента

Расшифровка записей увеличивает доступность восприятия контента. Это происходит от того, что у значительной части интернет-пользователей довольно плохая скорость воспроизведения аудио и видео, либо они лучше воспринимают информацию в виде текста. Кроме того, не нужно забывать о значимости текстовых факторов для поисковых систем. Несмотря на очевидную пользу транскрибирования, многие отказываются от него, ссылаясь на отсутствие средств и возможностей.

Прежде чем приступить к расшифровке записей, посмотрите полезную статью о том, как правильно подавать видео на ресурсе.

Как транскрибирование влияет на трафик?

Во-первых, трафик увеличивается. Многие радио- и телеканалы давно заметили, как интерес к их контенту возрос именно после создания текста ко всем материалам. Очень большая часть посетителей, нашедших сайт посредством поисковика, посещают именно страницы со стенограммами. Это способствует увеличению входящего трафика  и увеличению входных ссылок.

Во-вторых, страницы с затранскрибированным текстом приносят в среднем  на 16% больше просмотров, чем остальные. Транскрибирование не просто удобно для пользователя, оно является действенной тактикой в SEO-оптимизации.

Способы транскрибирования материала

Для этого можно воспользоваться тремя способами:

  • ручным;
  • автоматическим;
  • DIY
Автоматическая расшифровка

Автоматические средства по расшифровке записей включают в себя технологии по распознаванию речи или аудио в тексте, текстовое программное обеспечение и интерфейсы прикладных программ (API для транскрипции). С их помощью можно получить текст из звукового файла без усилий со стороны пользователя. Однако они не могут обеспечить абсолютную точность и будут требовать вмешательства и проверки. Чтобы понять, о чем речь, включите субтитры в видео из Youtube.

Оплошности при создании текстового материала возникают по ряду причин:

  • специфический акцент;
  • дефекты речи;
  • помехи при записи;
  • диалект;
  • сленг.

При наличии подобных факторов, тому, кто транскрибирует текст, нужно будет снова его проработать на предмет несоответствий и ошибок.

К счастью, технологии совершенствуются, и с каждым днем инструменты становятся все лучше. С их помощью можно добиться точности в 80% или даже 90%, что, несомненно, экономит время на корректировку.

Ручная расшифровка

С одной стороны, ручная расшифровка предполагает выполнение работы самостоятельно без использования каких-либо вспомогательных программ. Единственное используемое программное обеспечение при этом способе транскрибирования – текстовый редактор.

Точность такого способа максимально высокая. Тем не менее, современные инструменты, которые используют машинное обучение, искусственный интеллект и методы сегментации, теперь могут производить тексты с примерно такой же точностью, что и люди.

DIY расшифровка

DIY (Do-It-Yourself – «сделай сам») метод используется, в основном, для быстрого выполнения поставленной задачи. Работу делят между несколькими людьми. Например, часовой подкаст можно разделить между четырьмя людьми. Уже в течение дня будет готов текст. Но важный нюанс такого метода состоит в индивидуальности каждого исполнителя. Это связано с особенностями подхода к выполнению работы, которые невозможно игнорировать.

Выбор любого из представленных методов зависит от ваших возможностей, ресурсов и особенностей текста.

Теперь рассмотрим собственно сами способы транскрибирования аудио и видеоконтента.

1. Бесплатные сервисы и инструменты для транскрибирования онлайн

Одним из способов расшифровки аудио- или видеозаписей является использование бесплатных онлайн-инструментов. Их легко найти, просто вбив запрос «бесплатные онлайн-инструменты транскрипции» в Google. Вы увидите огромное количество вариантов, среди которых и oTranscribe, Trint, Speechlogger.

GoogleDocs также предлагает воспользоваться своей бесплатной онлайн-системой транскрибирования под названием GoogleVoiceTyping. Чтобы получить к ней доступ, нужно зайти в GoogleDocs> Инструменты> Голосовой ввод или нажать Ctrl + Shift + S.

Такой полезный инструмент может дать почти 100% результат, если говорящий будет произносить текст максимально четко и медленно, чтобы система успевала уловить все особенности речи. Но если нет возможности контролировать говорящего или динамику произношения, эти бесплатные ресурсы будут во многом ограничены. Отметим еще раз – запись одного голоса будет качественнее.

Не забудьте проверить и отредактировать получившийся текст!

Поисковая система Google установила строгие правила касаемо «автоматически сгенерированного текста». Неотредактированный текст может быть отнесен к спаму, что обязательно приведет к плохому месту в выдаче.

Еще одно замечание: инструменты онлайн-расшифровки требуют постоянного подключения к интернету. Поэтому если вы работаете в дороге без постоянного соединения, они вам не подойдут.

2. Бесплатное программное обеспечение

Принцип работы подобных инструментов в основном такой же, как и в первом способе. Основное различие заключается в том, что вы можете загрузить и установить их на свой компьютер, чтобы позволяет работать без подключения к сети. Примеры таких программ: Transcriber, ExpressScribe, MacSpeechScribe.

3. Автоматический ввод субтитров в Youtube

Субтитры на Youtube не всегда оправдывают ожидания, но такой способ имеет право на существование:

Ошибки, как в примере, возникают нечасто, но могут смутить и привести к неправильному пониманию. Если видеоролики будут с чистым и четким звуком, речь в них — медленной и без акцента, то можно получить вполне удовлетворительное качество.

Не исключайте того факта, что всегда контролировать звук и динамику не получится. Особенно это касается расшифровки переговоров, конференций или мероприятий, где много фоновых шумов и разговоры перекрывают друг друга. В остальных записях, если учитывать приведенные рекомендации и придерживаться правила строгой очередности, будет минимальное количество ошибок.

5. Мобильные приложения для расшифровки записей

В Android и AppleStore есть много приложений, которые помогут расшифровать записи при помощи телефона. Просто откройте свой магазин приложений и введите запрос «перевести голос в текст».

Приложения для мобильной транскрибации лучше всего подходят для журналистов и корреспондентов, которые всегда в движении и часто делают личные интервью или отчеты с места действия.

Кроме того, большинство современных смартфонов и компьютеров также оснащены собственной технологией распознавания речи. В самом обычном смартфоне можно открыть встроенное приложение блокнота и нажать значок микрофона или другую специальную кнопку, которая приведет в действие алгоритм для распознавания речи. После того, как вы начнете диктовать, система начнет переводить речь в текст и отображать ее в блокноте.

У Microsoft и Mac есть собственные программы для распознавания речи, известные как Windows Speech Recognition и Dictation.

Чтобы получить доступ к инструменту Microsoft, просто зайдите в панель поиска Windows и введите «Распознавание речи Windows». Когда он включен, вы можете открыть текстовый редактор и поместить курсор туда, где должен появиться продиктованный текст.

Недавно компания Microsoft объявила, что их система распознавания речи выдает только 5,1% ошибок. Такой процент есть и при ручной расшифровке.

Как видим, результаты не безупречные, но и не такие уж плохие.

Что касается надиктовки на Mac, то пользователи могут настроить его, перейдя к: Меню Apple> Системные настройки> Клавиатура> Диктовка.

Отсюда можно включить диктовку и заполнить всю необходимую информацию, такую как языковые настройки и сочетание клавиш.

Уникальность технологичного решения заключается в продуманном и удобном интерфейсе. Пользователь может настроить систему под особенности своей речи, чтобы восприятие звука было максимально четким и адекватным. Также к безусловным удобствам можно отнести расстановку знаков препинания. Для этого нужно просто произнести следующие слова, например:

  • апостроф ‘
  • открывающая скобка [
  • закрывающая скобка ]
  • открывающая фигурная скобка {
  • и т. д.

Отметим, что инструмент от Windows может функционировать без подключения к интернету. В Mac, напротив, нужно будет выбирать опцию Enhanced Dictation, потому что программа распознавания речи по умолчанию нуждается в запуске сети.

6. Google Cloud Speech API

Это сервис для распознавания речи более чем  с 110 языков, благодаря чему он стал одним из самых популярных. Считается, что инструмент значительно превосходит по качеству оцифровки звуковых записей другие софты и совершает наименьшее количество ошибок. Но как известно за качество нужно платить, поэтому после часа бесплатного транскрибирования аудио потребуется платная подписка.

7. Наемные работники или DIY

Как вы уже поняли, хорошие средства для транскрибирования обойдутся недешево. Цена на них варьируется от 50 до 150$. Специализированные компании без проблем могут позволить себе такие траты на профессиональное программное обеспечение. Но если нет цели оцифровывать аудио в огромных количествах, то ручной метод прекрасно подойдет. Расшифровка учебных материалов или интервью без специальных инструментов будет также недорогой.

Нанять исполнителя задания можно на многих ресурсах, где фрилансеры предлагают свои услуги. Цену укажите фиксированную за знаки или минуты или устройте что-то вроде тендера, и посмотрите, кто предложит лучшие условия сотрудничества. Только помните известную поговорку: «Цена соответствует качеству».

Не стоит забывать, что могут попасться и недобросовестные исполнители. Проверка профиля, истории заказов, резюме и отзывов спасет от ряда неприятностей.

Конфиденциальную информацию для расшифровки лучше отдавать для выполнения специализированным компаниям. Они смогут гарантировать клиентам безопасность и защиту данных. Стоимость определяется непосредственно исполнителем в зависимости от ряда факторов.

Заключение

Расшифровка аудио- и видеозаписей приносит увеличение трафика и повышает привлекательность страницы. Выбор способа транскрибирования зависит от ваших возможностей, платежеспособности и качества звука.

Качественное и профессиональное исполнение расшифровки стоит достаточно дорого, хотя можно прибегнуть к помощи наемного работника, который готов будет выполнить работу дешевле. Однако помните, что за хорошее качество лучше заплатить реальную цену.

Транскрибация: ещё один способ заработка в сети

Проще говоря, транскрибация — это расшифровка аудио и видеозаписей для дальнейшего перевода их в текст. На биржах фриланса подобный вид заработка довольно распространён, поскольку не требует особых навыков, кроме грамотного написания текста, слепой печати и большого количества свободного времени.
При переводе звука в текст следует учитывать множество факторов для совершения корректной транскрибации.

  • Не переносить в текст слова-паразиты, обрывочные фразы, не несущие смысла, междометия и частицы, часто возникающие в речевых паузах;
  • Заносить тайм-код (если требуется) тех слов, которые невозможно было разобрать на слух из-за плохого качества записи;
  • Транскрибировать записи, учитывая специфику содержания в записи. Политические дебаты, многочасовые совещания депутатов и видео о том, как правильно что-то делать будут транскрибироваться по-разному;
  • Перед транскрибацией следует ознакомиться с правилами транскрибирования определённых жанров;

Также не стоит забывать о том, что тайм-коды, которые иногда заказчик просит перенести на текст, должны внешне отличаться от тайм-кодов для нераспознанных слов. Например, обычное время можно указать в квадратных скобках, а время для нераспознанных слов — в круглых.
Транскрибация может быть не только ручной, но и автоматизированной. Конечно, второй способ кажется более предпочтительным, но всё же требует ручной доработки. В этом случае запись подаётся на вход программе, преобразующей речь в текст. На выходе получается неплохой черновой вариант записи. Почему черновой?

  • Записи плохого качества плохо переводятся в текст;
  • Могут не учитываться знаки препинания;
  • При плохой работе Интернета возможен неккоректный перевод в текст, если запись проводится онлайн;

В любом случае, полученный вторым способом текст следует пересмотреть, повторно включив запись. Использовать для машинной обработки записей можно огромное число утилит, например, голосовой блокнот Speechpad от Google.
Следует помнить, что транскрибирование на открытых биржах фриланса, где много конкуренции, стоит довольно дёшево и на этом довольно проблематично хорошо заработать. Зато с этого можно начать путь фрилансера, чтобы прощупать почву и понять, стоит ли двигаться дальше в этом направлении или нет.