Содержание

Голосовой переводчик своими руками / Хабр

Где-то с неделю назад моя хорошая знакомая в разговоре пожаловалась что хочет подучить английский язык, но к сожалению из-за графика работы не может посещать курсы. Было бы неплохо если бы был какой то переводчик-самоучитель на обычный телефон (читаем j2me-платформа). Будучи модератором одного из околомобильных форумов, я принялся прочесывать темы в поисках подобного решения. Нашлись несколько. Проблема была в том что:

1) вес от 350 кб и до 7-8 мегабайт

2) только текстовый перевод

3) только пара языков (рус.-анг.)

Как истинный джедай девелопер, я решил исправить ситуацию, произвести впечатление на девушку, заодно давно хотел поработать с голосом на j2me.

В качестве движка всего этого дела сразу же выбрал продукт от Корпорации добра.

Поставил себе ТЗ:

— минималистический интерфейс (два поля ввода, выбор языков с какого и на какой переводить)

— перевод текста

— голосовое озвучивание переведенного текста

— голосовой ввод


В качестве движка перевода текста взял исходники любезно предоставленные знакомым разработчиком Doctor Drive.

Генерацию голоса нашел на Хабре. Через несколько часов был готов прототип, переводящий текст и озвучивающий его.

Оставался самый интересный, и на первый взгляд нереальный этап — распознание голоса на j2me. Идею программной обработки я отбросил сразу как фантастическую, и начал изучать как распознают голос с помощью GoogleSpeechAPI. Информации по тематике достаточно, главная проблема — API принимает формат flac или speex. Ну что ж, иду качать библиотеки соответствующих форматов под j2se и начинаю их портировать на j2me. В 4 часу ночи после 20-30-50 кружки кофе, смотря на предстоящую борьбу еще с не одной тысячей строк, меня посещает мысль о том что когда то, еще на Nokia N73 у меня стоял голосовой поиск от Google, и он работал на удивление быстро. Или там был какой то мегапроизводительный кодек flac, или там немного хитрости. Откладываю код программы и библиотеки, создаю новый проект, главная цель которого — перебрать в цикле все аудиоформаты, поддерживаемые телефоном, на предмет совместимости с GoogleSpeechAPI. Компилим, запускаем, несколько минут страха что я ошибся, длиннющее полотно текста с ошибками от апи… и один единственный ответ, выбивающийся из толпы. А формат то «encoding=amr»! Радость была недолгой, на все попытки отправить свой голос я получаю невнятные ответы с текстом вроде «оооо» и так далее. Раскинув остатками мозгов после бессонной ночи уже на работе, решил проверить с какими же характеристиками пишет диктофон телефона, спасибо aNNiMON’у который оперативно помог с этим. Выяснилось что нужно было заменить «audio/amr; rate=16000» на «audio/amr; rate=8000». После работы проверяем как работает. Бинго!

Теперь можно было оформлять программу и исходники в что-то более-менее юзабельное. Конечная версия может:

— переводит текст с одного языка на другой, список языков аналогичен такому же на translate.google.com

— озвучивает переведенный текст

— может переводит Голоc-В-Голос, то-есть диктуем текст, он появляется в поле ввода, переводиться, и озвучивается

— проверка произношения (не идеальное решение, но работает). Диктуем фразу, и она сверяется с эталоном

— открытие текста из файловой системы и перевод

— ведение журнала переводов, храниться в папке диктофона (в файловой системе)

Кидаю программу к себе на телефон, друзьям-знакомым, на парочку форумов, чтобы отловить ошибки. Реакция неоднозначная, на некоторых ресурсах в темах ни одного поста, некоторые знакомые попросили такую же под Андроид/компьютер. Сам пока жду реакции той самой знакомой.

UPD: пофиксил найденные проблемы, теперь при записи попадаем на окно с кнопкой окончания и таймером записи; в случае ошибки на сервере/сети выводим соответствующее уведомление

Голосовой Гугл переводчик онлайн

С переводчиками работать голосом очень удобно. От нас требуется только нажать на кнопку активации прослушивания и произнести фразу. И на экране тут же появится перевод на указанный язык. В этой статье вы узнаете всё о голосовом Гугл Переводчике, который работает в режиме онлайн. А также о других подобных программах.

Голосовой Google Переводчик — как им пользоваться онлайн?

В веб-версии переводчика Google (в прочих интернет браузерах) функции голосового перевода нет. Такая возможность доступна только в мобильном приложении для iOS и Android. А также только в браузере Google Chrome. Если вы хотите перевести или ввести текст голосом, нужно открыть адрес https://translate.google.com/ в браузере от Гугл.

Скачать его можно по ссылке https://www.google.com/intl/ru/chrome/.

Дальнейший порядок действий:

  1. В первом блоке, где нужно вводить фразу или слово для трансформации, нужно нажать на пиктограмму микрофона;

    Нажмите на пиктограмму микрофона в Google Chrome

  2. Микрофон в переводчике окрасится в красный цвет. Это значит, что вы можете говорить, программа готова переводить;
  3. Надиктованный текст будет отображаться в окне.

    Продиктуйте слова в микрофон для перевода

Вы можете прослушать перевод онлайн, нажав в переводчике на иконку громкоговорителя. Или скопировать текст, чтобы вставить в другом документе. В браузере Хром есть ещё несколько способов отправки результата. Вы можете отправить текст по адресу электронной почты или на указанный профиль в Twitter. Для этого нажмите справа в блоке результата на кнопку «Поделиться».

И внизу выберите одну из кнопок.

Выберите способ поделиться в переводчике Google

Рядом кнопки для ввода исправления перевода, а также кнопка для копирования всего результата.

Читайте также: озвучка текста голосом от Гугл.

Приложение для онлайн-трансформации текста на другой язык

В мобильном приложении Google Translate всё так же очень просто. Доступно для двух популярных мобильных платформ — Андроид и iOS.

Оно также ещё более функциональное, чем сайт переводчика Google:

Функции:Особенности:
Большой выбор языковПозволяет переводить текстовые сообщения на более чем 100 языков.
Работа в режиме офлайнМожно переводить предложения и речь без интернета. Эта функция будет работать для 59 языков до того момента, пока вы снова не подключитесь к интернету.
Перевод через фотокамеруМоментальный перевод, используя фотокамеру мобильного устройства (функция доступна для Android 5.0 и выше). Поддерживается 38 языков.
Распознавание текста на картинкахПоддерживается 37 языков.
Поддержка моментального перевода надиктованной речиВ этом режиме можно общаться с иностранцами и читать перевод на смартфоне
Перевод рукописного вводаВвода со стилуса.
РазговорникЕсть также словарь, который составляет сам пользователь. Каждый раз при переводе фразы можно отбирать для разговорника.

Чтобы переводить на смартфоне свою речь, например, с русского языка на английский, скачайте приложение. Если его ещё нет на вашем мобильном устройстве.

Порядок работы с сервисом:

  1. Откройте Google Translate в главном меню;
  2. Выберите в приложении кнопку с микрофоном;
  3. Укажите пару языков, для которых нужен перевод;
  4. И произнесите фразу, которую нужно трансформировать.

Если вы выбрали какой-то язык, но кнопка с микрофоном сейчас окрашена в серый цвет, значит выбранный вами язык не поддерживается для голосового перевода в сервисе Google. Когда вы увидите приглашение «Говорите» в окне приложения, это значит, что можно произносить слова для перевода. Пользователь может настроить в онлайн-программе диалекты. Доступно не для всех поддерживаемых языков.

Возможности голосового переводчика Яндекс

Компания Yandex не столь ревностно относится к своим продуктам, как Google. Все функции переводчика Яндекс доступны как в браузере их собственной разработки, так и во всех остальных.

Чтобы воспользоваться онлайн версией, перейдите по адресу https://translate.yandex.ru/.

Дальнейший порядок действий:

  1. В левом окне несколько кнопок: удаление текста, воспроизведение текста, голосовой ввод, экранная клавиатура. А также кнопка для авто исправления опечаток в тексте;
  2. Укажите язык, с которого нужно перевести и нажмите на кнопку с микрофоном;

    Укажите язык и нажмите кнопку с микрофоном

  3. Кнопка окрасится в жёлтый цвет, приглашая вас говорить в микрофон;
  4. Если вы говорите, но текст в окне не появляется, значит выбранный вами язык и тот, на котором говорите вы — не соответствуют;
  5. В окне результатов также есть несколько кнопок, которые делают перевод удобнее.

Например, вы можете добавить фразу или слова в избранное. Или в свой разговорник в системе Яндекс. Нажав на иконку с громкоговорителем, вы услышите показанный результат, воспроизведённый голосовым синтезатором.

Здесь также есть кнопка для копирования результата, кнопка оценки и кнопка для редактирования. Если вам понравился перевод, вы можете нажать на кнопку «Поделиться» и отправить его в Одноклассники, ВКонтакте, Фейсбук или по электронной почте.

Мобильное приложение Яндекс.Переводчик

Для мобильного устройства разработчики из Яндекс предлагают загрузить как переводчик, так и браузер с Алисой. Голосовой помощник знаком многим пользователям в интернете. Алису испытывали и блогеры, и журналисты и даже животные. Это отличный способ быстро получить перевод фразы, которую вы назовёте электронному помощнику.

Приложение нужно искать по запросу «Яндекс с Алисой» в Play Market или App Store.

Скачайте мобильное онлайн-приложение Яндекс.Переводчик для того, чтобы была возможность полноценно переводить голосом. А также использовать все функции программ, включая словари и текстовый перевод.

Порядок действий:

  1. Откройте мобильное приложение-переводчик;
  2. Выберите нужный язык и активируйте режим «Онлайн»;

    Выберите языковую пару и активируйте онлайн режим

  3. Выберите иконку с микрофоном и начните говорить. Или поднесите смартфон к источнику незнакомого голоса;
  4. Текст и перевод появятся на экране приложения.

Мобильное приложение от Yandex способно работать в режиме словаря. А также быть неплохим инструментом для изучения выбранного вами языка. В нём можно создавать карточки со словами, фразами и предложениями для запоминания.

И сортировать их на своё усмотрение. Можно легко делиться, а также очень просто удалять полученные результаты — просто смахните текст в сторону.

iTranslate — удобный инструмент для перевода текста онлайн на любой язык

Приложение для мобильных устройств iTranslate использует уже более 50 миллионов человек на Андроид и iOS. В интернете оно славится тем, что умеет переводить предложения максимально точно. Имеет большой архив разговорных слов, а также переводит более чем на 90 языков. В iTranslate можно узнать значение каждого слова на одном из поддерживаемых языков. Прочитать любое приложение, которое вы ввели. Или которое получилось в результате перевода. А ещё в нём есть поддержка региональных наречий определённого языка.

И хотя последние обновления приложения были раскритикованными, им по-прежнему пользуется большое количество людей во всём мире. Об одном недостатке всё же стоит упомянуть — приложение для бесплатного использования доступно только 1 неделю. После чего необходимо заплатить за PRO версию.

Пользоваться iTranslate просто и удобно:

  1. Загрузите и откройте его на своём устройстве;
  2. Выберите нужный язык. Если нужно поменять их местами, нажмите на кривую стрелочку между вариантами;
  3. Нажмите на иконку микрофона и начните говорить;

    Нажмите на микрофон в приложении iTranslate

  4. Когда вы закончите, на экране появится результат на указанном языке.

Если сравнивать по функциональности — приложению далеко до голосового переводчика от Гугл, которое работает в режиме онлайн. Но использовать его можно в качестве альтернативы. В нём также есть электронные словари, которые доступны без интернета.

Настройка офлайн распознавания и синтеза речи из Anobic Support

Приложение Поддержка Anobic (Anobic Support) предоставляет простой способ установить необходимые языковые приложения и, в частности, настроить ваше устройство для работы с голосовыми функциями.

Голосовой ввод в устройствах Андроид — это не что иное, как еще один способ ввода текста, наравне с клавиатурой. Т.е. это не неотьемлемая часть голосового переводчика, а часть операционной системы. Концептуальное решение для ввода текста в Андроид: он везде может быть осуществлен любым доступным способом, будь то клавиатура, микрофон, подключаемый сканер или встроенная камера. Поэтому логично, что голосовой ввод в переводчик настраивается не в переводчике, а где-то в системе.

Для удобства пользователя эти настройки сгруппированы вместе в приложении Anobic Support, они находятся в конце списка:






Найдите в списке приложений программу Anobic Support , откройте ее и потяните список вниз до самого конца 
При нажатии на пункт «Настройки распознавания речи» появится изображение, как на картинке справа. Закладка «Все» позволяет гибко конфигурировать переводчик, скачивая новые пакеты или удаляя старые (отмечено красным). Закладка «Установленные» содержит список языков, которые уже доступны на устройстве. Под каждым из пунктов находится подпись «предустановлено/скачать/доступно обновление», являющаяся подсказкой, в каком статусе находится язык и какое действие возможно при нажатии на него. Наличие языка в закладке «Установленные» означает, что пакет успешно интегрирован в систему, и для него возможен голосовой ввод, т.е. смартфон может преобразовать речь на этом языке в текст (который, в свою очередь, в программе Мультиперевод, Словарь, Google Translate,  Яндекс.Переводчик и других будет использован для перевода на другой язык). 
Аналогично, пункт «Настройки синтеза речи» выглядит как на картинке справа с той разницей, что непосредственная конфигурация каждого языка осуществляется после нажатия на выбранный пункт из списка: 

Иконка справа от языка показывает какое действие можно совершить при нажатии на нее:

Скачивание/установка

Отсутствие иконки означает, что пакет уже находится в системе и не может быть удален. Нажатие на текст «Набор голосов» позволяет открыть настройку выбор диктора:


 

Кроме того, в настроках приложения «Anobic Support» реализована фукция автоматической проверки и скачивания данных для синтеза речи (отмечено красным)

Переводчики

Русско-узбекский переводчик
С этим бесплатным приложением можно переводить тексты, слова и фразы с русского языка на узбекский и с узбекского языка на русский. Приложение для легкого и быстрого перевода, которое может быть использовано как словарь. Голосовой ввод текста. Можно делиться переводами с друзьями.

 

 

Русско-таджикский переводчик
Приложение дает возможность переводить тексты, слова и фразы с русского языка на таджикский и с таджикского языка на русский. Приложение можно использовать как словарь. Голосовой ввод текста. Можно делиться переводами с друзьями.

 

 

Русско-киргизский переводчик
Перевод текстов, слов и фраз с русского языка на киргизский и с киргизского языка на русский. Голосовой ввод текста. Приложение для легкого и быстрого перевода, которое может быть использовано как словарь. Можно делиться переводами с друзьями.

 

 

sozdik.kz — Казахско-русский словарь
Официальное онлайн-приложение сайта sozdik.kz. Два словаря в одном приложении: русско-казахский и казахско-русский словарь. Профессиональным диктором озвучено более 16000 слов на казахском языке. Перевод больших предложений, синхронизация переводов.

 

 

Русско-азербайджанский переводчик
Можно легко переводить слова и текст с азербайджанского на русский и с русского на азербайджанский язык. Это переводчик содержит следующие функции: перевод слов и предложений; перевод из буфера обмена; простой и интуитивно понятный интерфейс; может быть использован в качестве словаря.

 

 

Русско-грузинский переводчик
Приложение обеспечивает переводы слов и фраз на русском и грузинском языках. Может быть использован как грузинский и русский словари. Текст в речь: чтение вслух произношения переводить результаты. Голос произношение аудио требуется подключение к сети.

 

 

Молдавский разговорник
Русско-молдавский разговорник предназначен для тех, кто не очень хорошо владеет молдавским языком, он упростит общение и взаимопонимание. Справочник работает в режиме оффлайн. База данных будет загружена при первом запуске. Каждая статья, которую когда-либо просматривали, сохраняется в истории.

 

 

Русско-украинский переводчик
Бесплатный переводчик может перевести слова и предложения с русского на украинский и украинского на русский язык. Приложение будет очень полезным для людей, изучающих иностранный язык путешественники, студенты и все, кто повысить свой уровень языка. Перевод слов и фраз и голосовой ввод.

 

 

Русско-армянский переводчик
Приложение обеспечивает перевод слов и фраз на русском и армянском языках. Может быть использован как армянский и русский словари. Текст в речь: чтение вслух произношения переводить результаты. Голос произношение аудио требуется подключение к сети.

 

 

 

Источник информации: сайт Google Play

Онлайн переводчик Bing [голосовой перевод текста]

Приветствую вас, уважаемые читатели блога Rabota-Vo.ru! Сегодня мы вновь будем говорить об онлайн-переводчиках. Почему я решил вернуться к этой теме? Дело в том, что, несмотря на наличие достаточно мощных онлайн-сервисов для перевода текстов, которые предоставляют пользователям такие поисковые сервисы, как Яндекс и Google, не всегда удается с помощью одного из них получить на выходе качественный связный текст, а не обрывки фраз.

Ведь довольно часто одно и то же слово может иметь несколько значений. И не факт, что выбранный вами переводчик текстов онлайн покажет наиболее приемлемый в данном контексте вариант. Особенно, когда приходится иметь дело с переводами не новостных, а узкоспециализированных технических сайтов.

Конечно, в сети есть сервисы, обеспечивающие изучение английского языка самостоятельно онлайн бесплатно с нуля даже для детей. Но у большинства пользователей нет на это времени.

В этом случае, конечно, имеет смысл задействовать все возможные мощности для перевода, а после выбрать наилучший вариант. Но одна голова – хорошо, две – не красиво, а три – будет в самый раз (недаром в русских народных сказках Змей Горыныч имел три головы). И я тоже решил подстраховать и себя, и всех, кто читает мой блог, от неточностей перевода, добавив в свой арсенал третий бесплатный переводчик – Бинг.

Честно говоря, я бы даже удивился, если бы такой софтверный гигант, как Microsoft, не осчастливил своих пользователей собственным онлайн-переводчиком. Так же, как онлайн переводчик Google, переводчик Bing «прикручен» к поисковому сервису (www.bing.com).

Бинг переводчик. Плюсы и минусы по сравнению с Google Translate и Яндекс

Я уже сталкивался с переводчиком Bing в 2011 году. Тогда я не испытал особого восторга от его работы. Минимализм в стиле Артемия Лебедева напоминал онлайн-переводчик Яндекса. Причем, не только в оформлении, но и в функциональности. Произошли ли какие-либо изменения за эти два года? Это я и решил проверить. Итак, приступаю к тест-драйву.

• Количество поддерживаемых языков впечатляет. Я насчитал их в выпадающем списке 44, включая такие экзотические языки, как хмонг дау, клингонский, урду и гаитянский креольский. Пару лет назад их было на десяток меньше. Хотя, честно говоря, меня интересовал в большей степени только английский. Но запас слов, как говорится, лишним не бывает.

• В направлении английский-русский онлайн переводчик Bing по-прежнему не поразил меня идеальным качеством перевода, хотя в целом показал результат не хуже, чем переводчики Google и Яндекса. Зато перевод в направлении русский-английский оказался выше всяких похвал.

• Особенно понравился голосовой перевод. Приятный женский голос прочитал переведенный текст (именно текст, а не последовательность отдельных слов, как это реализовано в Google Translate) внятно и с должной интонацией, а также с акцентом живого носителя языка. Последнее может оказаться полезным для тех, кто изучает иностранный язык самостоятельно и хочет выработать правильное произношение.

• Также порадовала добавленная функция автоматического перевода. Теперь нет необходимости дожидаться набора всего текста и нажатия кнопки «Перевести» (хотя, сохранена и такая возможность – выбор оставлен за пользователем) – переведенный текст сразу автоматически печатается в окне по мере ввода исходного текста. К сожалению, голосовой набор текста в поле ввода переводчика Бинг пока не реализован, но, думаю, что недалек тот час, когда подобная функция будет возможной.

• Если говорить о грамматике русско-английского перевода, то здесь явно заметен American English. Неплохо переводятся идиомы. Бинг даже справился с переводами таких заковыристых слов, как «загогулина» (flourish ) и, собственно, само прилагательное «заковыристый» (catchy). А вот с существительным «заковырка» Бинг не совладал, просто преобразовав его в транслит.

Реализована также функция «Перевод URL», позволяющая переводить сразу целые страницы сайта непосредственно в браузере. В окне вывода в этом случае отображается не переведенный текст, а ссылка на веб-страницу с выполненным переводом. При этом вся структура веб-страницы сохраняется, а при наведении на переведенный текст во всплывающем окне отображается исходный текст на языке оригинала.

В чем Бинг переводчик проигрывает переводчику Google, так это в отсутствии возможности выбора варианта перевода того или иного слова, предлагая пользователю только единственный, наиболее подходящий, по «мнению» программы, вариант. О том, что это мнение может оказаться и ошибочным, я уже говорил выше. Однако, если сравнивать с онлайн переводчиком Яндекса, то здесь переводчик Бинг в явном выигрыше как по количеству поддерживаемых языков (у Яндекса их только 33), так и в комфортности использования.

Кстати, подобно тому, как я встраивал в свой блог html-код, позволяющий проверить скорость интернета, точно так же можно встроить и код переводчика Bing на свой сайт или блог. Мини-приложение для веб-страниц.

Переводчик Bing также является полностью бесплатным. Используя привычное сочетание клавиш Ctrl-C и Ctrl-V, вы можете просто скопировать код скрипта со страницы bing.com/widget/translator и вставить его в нужном месте на странице своего сайта. Думаю, что эта информация будет особенно интересной начинающим веб-мастерам, решившим самостоятельно создать сайт бесплатно, не вкладывая средств в платные виджеты.

Переводчик Бинг для мобильных устройств

Отдельно разработано бесплатное приложение Bing Translator для мобильных устройств. Загрузив его на смартфон, работающий под управлением ОС Windows Phone 8 (согласно информации от разработчика программа работает и в среде ОС Windows Phone 7.5), я остался более чем доволен его работой. Это один из немногих случаев, когда версия программы, разработанная для мобильных устройств, не только не уступает по функциональности приложению для ПК, но и превосходит его.

В частности, реализована поддержка ввода текста не только с клавиатуры, но и с камеры мобильного телефона, а также голосовой ввод. Достаточно, к примеру, сфотографировать меню в японском ресторане на камеру телефона или произнести речь на микрофон, как переводчик автоматически распознает язык и выполнит его перевод. Но, к сожалению, практической пользы для себя от данного приложения я пока также извлечь не могу, поскольку в нем всё еще не реализована поддержка русского языка.

Локализация переводчика Bing для компьютера

Помимо онлайн версии, программисты Microsoft разработали приложение Bing Translator App for Windows, позволяющее осуществлять перевод даже в тех случаях, когда компьютер отключен от сети Интернет. Программа также является бесплатной, но работает только под управлением ОС Windows 8.1. К сожалению, мой ПК работает под управлением ОС Windows 7, поэтому тест-драйв данного приложения я вынужден отложить на некоторое время.

Желаю всем читателям удачи, и до новых встреч на страницах блога Rabota-Vo.ru!

Вас это может заинтересовать:

Discovery XT

Голосовой перевод в обе стороны без интернета13 языков (Английский, Немецкий, Испанский, Итальянский, Французский, Голландский, Португальский, Китайский (традиционный, мандарин), Корейский, Японский, Индонезийский, Хинди, Русский)
Языки, перевод которых без интернета обратно на Русский возможен только при вводе текста с клавиатуры46 языков (Албанский, Арабский, Африкаанс, Белорусский, Бенгальский, Болгарский, Валлийский, Венгерский, Вьетнамский, Галисийский, Греческий, Грузинский, Гуджарати, Датский, Иврит, Ирландский, Исландский, Каннада, Каталанский, Креольский (Гаити), Латышский, Литовский, Македонский, Малайский, Мальтийский, Маратхи, Норвежский, Персидский, Польский, Румынский, Словацкий, Словенский, Суахили, Тайский, Тамильский, Телугу, Турецкий, Украинский, Урду, Филиппинский, Финский, Хорватский, Чешский, Шведский, Эсперанто, Эстонский)
Поддерживаемые диалектыАнглийский (США, канадский, британский, индийский, австралийский, ЮАР, ирландский, новозеландский, филиппинский, ганский, тайский, индонезийский, ирландский, кенийский, нигерийский, танзанийский), Испанский (испанский, доминиканский, аргентинский, боливийский, венесуэльский, гватемальский, гондурас, колумбийский, гватемальский, коста-риканский, мексиканский, никарагуа, панамский, парагвайский, перу, пуэрто-риканский, сальвадорский, США, уругвайский, чилийский), Португальский (бразильский, португальский), Китайский (традиционный тайвань, традиционный гонконг, упрощенный мандаринский, упрощеный гонконг), Немецкий (австрийский, германский), Французский (французский, канадский), Арабский (алжирский, бахрейнский, египетский, израильский, иорданский, катарский, кувейтский, ливанский, марокканский, ОАЭ, оманский, палестинский, аравийский, тунисский).
Профессиональные курсы для изучения иностранных языковДа (Английский, Немецкий, Испанский, Итальянский, Французский, Голландский, Китайский)
Перевод текста с камеры без интернета20 языков — (Английский, Немецкий, Испанский, Итальянский, Французский, Португальский, Голландский, Чешский, Финский, Шведский, Турецкий, Греческий, Китайский, Японский, Корейский, Хинди, Индонезийский, Тайский, Вьетнамский, Русский)
Список языков, голосовой перевод которых осуществляется при подключении к интернету28 языков — Арабский, Африкаанс, Баскский, Болгарский, Венгерский, Вьетнамский, Галисийский, Греческий, Датский, Иврит, Исландский, Каталанский, Литовский, Малайский, Норвежский, Персидский, Польский, Румынский, Сербский, Словацкий, Словенский, Тайский, Турецкий, Украинский, Финский, Хорватский, Чешский, Шведский.
Туристический разговорникДа (Более 30 языков)
GPS навигация по всему миру без интернетаДа
Путеводители по всему миру без интернетаДа
Самообучаемый алгоритм переводаДа
Повышенное качество распознавания речиДа
Регулировка скорости переводаДа
Выбор озвучки перевода (мужской/женский)Да
Озвучка речи профессиональными дикторамиДа
Система распознавания речиNVC v.8.0
Бронированный корпусСтепень защиты IP68 (защита от пыли, влаги, падений и ударов)
Диагональ экрана5 дюймов
КорпусКомпозитные материалы
ЭкранIPS, 16.78 млн цветов, сенсорный (мультитач) экран — емкостной
Разрешение экрана1920 х 1080
Процессор8-ми ядерный
Количество ядер8
ВидеопроцессорMali-T880 MP2
Объем оперативной памяти4 Гб
Объем встроенной памяти64 Гб
Емкость аккумулятора4200 mAh, Li Polymer, производитель BAK
Камера16 млн пикс., двойная светодиодная вспышка, автофокус
Запись видеороликовЕсть
Фронтальная камераесть, 5 млн пикс
Стандарт связиGSM 900/1800/1900, 3G, 4G LTE (800, 1800, 2100, 2600 МГц)
Количество сим-карт2
Тип сим-картnanoSim
ПоддержкаWi-Fi 802.11n, Bluetooth 4.1, USB, NFC, GPS, А-GPS, Глонасс
АудиоMP3, FM-радио, FLAC, APE, AAC, MKA, OGG, MIDI, M4A, AMR
ВидеоMP4, 3GP, MOV, MKV, AVI, FLV, MPEG
Слот для карт памятиЕсть, поддержка до 256 Гб
Громкая связьЕсть
УправлениеГолосовой набор, голосовое управление
ДатчикиОсвещенности, приближения, акселерометр, гироскоп, компас, атмосферного давления
ФонарикЕсть
Размеры (ШxВxТ)79.2x153x12.6 мм
Вес233 г
Международная гарантия2 Года!

Как набрать текст сообщения на Английском, не зная языка

Мир глобализируется. Теперь в любую европейскую страну можно попасть за пару часов. Расстояния сокращаются. Поэтому совершить поездку на неделю в один из культурных центров Европы представляется полезным и приятным мероприятием.

Но общение с людьми в этих странах требует знания местного языка, по крайней мере, хотя бы английского. А быстро выучить его или восстановить школьный словарный запас требует времени и усидчивости.

А как написать сообщение на любом иностранном языке, если запас разговорного словаря ограничен и у вас нет с собой электронного гида?

Вот здесь к вам на помощь, совершенно неожиданно, может прийти Ваш смартфон, в котором установлена дополнительная экранная клавиатураGboard” (Google Клавиатура). Как установить клавиатуру Gboard и как сменить клавиатуру при вводе текста, мы писали ранее, и для перехода к этим статьям нажмите здесь или здесь.

Оказалось, что эта замечательная программа Gboard имеет две очень привлекательные функции:
1. Голосовой ввод текста, то есть стенографирование текста, который вы диктуете смартфону.
2. Перевод текста на иностранные языки. И не только с русского на английский, но и обратно. И языковый запас этой программы сегодня составляет 108 языков, включая «неживой» латинский!

В результате: вы можете надиктовать сообщение на русском, а встроенный переводчик переведёт вашу речь и выдаст результат на иностранном языке в виде текста.

С помощью Gboard вы можете не только отправить SMS-сообщение на любом европейском языке, не зная его, но и общаться в чатах во всех мессенджерах, включая WhatsApp, Viber, Telegram, Skype и все остальные. И это всё потому, что экранную клавиатуру Gboard на своём смартфоне вы можете сделать «основной» для набора любого текста. И это всё работает без установки на телефон дополнительных приложений-переводчиков. Достаточно иметь выход в Интернет и Gboard.

Процедура набора текста на иностранном языке с помощью клавиатуры Gboard выглядит следующим образом:

1. Заходите в любой мессенджер.
2. Нажимаете на кнопку «Новое сообщение».
3. Ставите курсор в поле набора сообщения. В этот момент внизу экрана открывается экранная клавиатура Gboard.
4. Нажимаете на значок «Три точки» на клавиатуре, а после на кнопку «Перевод», чтобы любой введённый (продиктованный) текст на русском языке, сразу переводился на выбранный Вами иностранный и помещался в строке для отправки.
5. Далее жмёте на кнопку «Микрофон». Диктуете текст сообщения на русском, а в строке сообщения сразу будет печататься его перевод на иностранном.
6. Жмёте на кнопку отправить сообщение.

Далее мы опишем эту простую процедуру на примере отправки смс-сообщения на редакционном смартфоне Samsung A50 с ОС Android 10.

Инструкция по написанию сообщения на иностранном языке, не владея им, с помощью клавиатуры Gboard на смартфоне Samsung.

1. Запускаем мессенджер для отправки SMS-сообщений — приложение «Сообщения» с Главного экрана.

Далее создания нового сообщения нужно нажать на кнопку «Новое сообщение».

Скрин №1 – запустить приложение «Сообщения». Скрин №2 – в мессенджере нужно нажать на кнопку «Новое сообщение».

2. У нас в качестве основной клавиатуры установлена клавиатура Gboard. Для того, чтобы в тексте сообщения был сразу помещён его перевод на другой язык, нам нужно включить функцию «Перевод». Для этого вначале нужно нажать на кнопку «Три точки» на клавиатуре, а после в открывшемся меню на кнопку «Перевод».

Скрин №3 – нажать на кнопку «Три точки». Скрин №4 – нажать на кнопку «Перевод».

3. Теперь мы можем начинать ввод текста для его перевода, но при включении этой функции первый раз нужно сделать одну операцию – установить язык исходного текста и язык перевода.
По умолчанию английский язык установлен как язык перевода.
Для установления языка ввода нужно нажать на кнопку «Определить язык».

Далее в пункте «Выберите язык оригинала» нужно отметить «русский».

Скрин №5 – нажать на кнопку «Определить язык». Скрин №6 – в списке языков нужно отметить «русский».

4. Далее, мы будем вводить исходный текст методом голосового ввода.

Для этого нужно нажать на кнопку «Микрофон» на клавиатуре и продиктовать исходный текст, например: «Как пройти на улицу Ленина?».

Приложение в строке исходного текста поместило расшифровку наших слов и одновременно с этим в строке основного сообщения — текст его перевода на английский язык: «How to get to Lenin street».

Приложение прекрасно справилась со своей задачей. Осталось только повторно нажать на кнопку «Микрофон» для остановки режима голосового ввода.

Скрин №7 – для ввода исходного текста нужно нажать на кнопку «Микрофон» и произнести «Как пройти на улицу Ленина?». Скрин №8 – в строке основного сообщения появился текст на английском языке. Для выключения голосового ввода повторно нажмите на кнопку «Микрофон».

Сообщение на английском языке фактически готово, осталось только расставить знаки препинания и нажать на кнопку «Отправить».

Скрин №9 – вид готового сообщения на английском языке.

5. В качестве примера и проверки возможности приложения Gboard по переводу текста на разные языки ниже приводится два скриншота:

Первый –  перевод с русского на японский того же исходного текста;

Второй – перевод с японского на вьетнамский этого же текста. Но нужно отметить, так как я японский не знаю совсем, поэтому в строке исходного текста я поместил скопированный текст перевода на японском языке. В результате программа успешно перевела с японского на вьетнамский.

Скрин №10 – перевод текста методом голосового ввода с русского языка на японский. Скрин №11 – перевод скопированного текста с японского языка — на вьетнамский.

Этот удобный способ перевода может пригодиться при непосредственном общении с иностранцами, когда вы показываете на своём смартфоне ваш вопрос, но уже на их языке. И таким же образом вы можете получить «письменный» ответ, но уже на русском языке.

Статьи по данной теме:
— Как подключить дополнительную клавиатуру Gboard на смартфоне SAMSUNG.
— Как сменить клавиатуру при вводе текста на смартфоне SAMSUNG.

Voice Translate: переводчик в App Store

Удивительное приложение для голосового перевода со ВСТРОЕННОЙ ТЕХНОЛОГИЕЙ голосового ввода и вывода и ПРОФЕССИОНАЛЬНЫМИ МНОГОЯЗЫЧНЫМИ ПЕРЕВОДАМИ
Знаете ли вы, что ВЫ МОЖЕТЕ ГОВОРИТЬ НА 36 ЯЗЫКАХ ???
с голосовым переводом УБЕДИТЕСЬ, ЧТО ВЫ МОЖЕТЕ !!!
ПРОСТО ГОВОРИТЕ И СЛУШАЙТЕ ПЕРЕВОДЫ!
Идеально, если хотите:
— выучить новый язык.
— путешествие за границу.
— общайтесь с людьми, которые не говорят на вашем языке.

С голосовым переводчиком вы можете:
УМНАЯ ТЕХНОЛОГИЯ ГОЛОСОВОГО ВВОДА!

— Мгновенно начните голосовой разговор на одном из наших 36 языков и диалектов.

ЕСТЕСТВЕННОЕ ЗВУЧАНИЕ ГОЛОСОВОГО ВЫХОДА!
— Если вы олдскульный, вы всегда можете поднять клавиатуру и послушать переводы. Поддерживаются 36 языков и диалектов.
Поделиться переводами …
— Просто нажмите кнопку «Отправить» по электронной почте или по SMS с переводом.
Редактировать переводы …

— вы всегда можете редактировать переводы с помощью клавиатуры.

Поддерживаемые языки голосового ввода: (речь \ речь)
Английский (США, Великобритания, Австралия, Канада)
Испанский (Испания)
Испанский (США)
Испанский (Мексика)
Французский (Франция, Канада)
Окончание
Немецкий
Итальянский
Японский
Китайский (традиционный, упрощенный, Тайвань / Гонконг)
Каталонский
Корейский
Голландский
Норвежский
Шведский
Датский
Португальский (Португалия, Бразилия)
Польский
Русский
Арабский
Турецкий
Греческий
Румынский
Индонезийский
Иврит
Венгерский
Африканский
Чешский
Малайский

Поддерживаемые языки и диалекты голосового вывода:
Английский (США, Великобритания, Австралия, Канада)
Испанский (Испания, Мексика)
Французский (Франция, Канада)
Окончание
Немецкий
Итальянский
Японский
Китайский (традиционный, упрощенный, Тайвань / Гонконг)
Каталанский
Корейский
Голландский
Норвежский
Шведский
Датский
Португальский (Португалия, Бразилия) 900 03 Польский
Русский
Арабский
Турецкий
Индонезийский
Иврит
Африканский
Чешский
Латинский
Малайский

Поддерживаемые языки и диалекты:
африканцев,
албанский,
арабский,
армянский,
азербайджанский,
баскский,
бенгальский Белорусский,
боснийский,
болгарский,
каталонский,
цебуанский,
китайский (упрощенный, традиционный, Тайвань / Гонконг)
хорватский
чешский
датский
голландский
английский
эсперанто
эстонский
филиппинский
финский грузинский
французский
филиппинский
финский
французский

Немецкий
Греческий
Гуджарати
Гаитянский
Иврит
Хинди
Венгерский
Исландский
Индонезийский
Ирландский
Итальянский
Японский
Яванский
Канадский
Кхмерский
Корейский
Лаосский
Малайский
Латышский
Норвежский
Малайский Латышский

Персидский
Польский 9 0003 Португальский
Румынский
Русский
Сербский
Словацкий
Словенский
Испанский
Суахили
Шведский
Тамильский
Телугу
Тайский
Турецкий
Украинский
Урду
Вьетнамский
Валлийский
Идиш
Теперь доступно более 100 языков перевода!
Распознавание голоса на 36 языках!
Озвучивание на 36 языках!

Примечание. Бесплатная версия может иметь ограничения (напр.количество переводов в день), и ограничения могут быть изменены.

* Выберите один из различных вариантов подписки. Наши стандартные варианты подписки:

Подписка на 1 месяц
Подписка на 3 месяца
Подписка на 1 год

* Плата за подписку будет снята с вашей учетной записи iTunes при подтверждении покупки и в начале каждого срока продления. Подписка с бесплатным пробным периодом автоматически обновляется до платной.Вы можете отменить подписку или бесплатную пробную версию в настройках iTunes как минимум за 24 часа до окончания бесплатного пробного периода. Отмена вступит в силу на следующий день после последнего дня текущего периода подписки, и вы будете переведены на бесплатную услугу.
* Обратите внимание: любая неиспользованная часть бесплатного пробного периода (если предлагается) будет аннулирована при покупке премиальной подписки в течение бесплатного пробного периода.

Для полного доступа ко всем функциям вам необходимо разрешить доступ к следующему:
* Местоположение — чтобы можно было включить автоматический выбор языка для вашей страны пребывания во время путешествия.
* Микрофон и распознавание речи — так что перевод речи в речь будет работать.

Лицензионное соглашение https://datacomprojects.com/api/Eula?bid=com.smartloftapps.voicetranslator&p=iOS
Политика конфиденциальности: https://datacomprojects.com/api/PrivacyPolicy?bid=com.smartloftapps.voicetranslator10&p

Как использовать документы Google для перевода текста и записи голоса — Torbjorn Zetterlund

Знаете ли вы, что теперь вы можете использовать запись голоса с документами Google, мне просто нравится эта функция, поскольку она помогает мне писать, я заметил, что чем старше я становлюсь, тем больше разговариваю с самим собой, когда я печатаю.Благодаря функциям записи голоса от Google я могу просто говорить вслух, а мой голос записывается в Документы Google.

Начать запись голоса очень просто, как видно из этого скриншота.

Начать запись голоса

  • Убедитесь, что ваш микрофон работает.
  • Откройте документ в Google docs в браузере Chrome.
  • Щелкните «Инструменты»> «Голосовой ввод». Появится окно с микрофоном.
  • Когда вы будете готовы говорить, нажмите на микрофон.
  • Говорите четко, с нормальной громкостью и темпом (дополнительную информацию об использовании знаков препинания см. Ниже).
  • Когда закончите, снова нажмите на микрофон.
  • Исправляйте ошибки при голосовом вводе

Если вы ошиблись при вводе голосом, вы можете переместить курсор на ошибку и исправить ее, не выключая микрофон. После исправления ошибки переместите курсор туда, где вы хотите продолжить.

Чтобы просмотреть список предложений, щелкните правой кнопкой мыши слова, подчеркнутые серым цветом.

Voice Recording поддерживает множество языков, вы можете проверить здесь, на странице поддержки Google.

Запись голоса в Документах Google также поддерживается на платформах Android и iPhone. Вот скриншот с моего iPhone 5, внизу вы видите микрофон на клавиатуре, просто нажмите и начните говорить. Это работает как шарм, даже с моим акцентом.

Перевод текста очень прост, вот инструкции.

  1. Откройте документ в Google Docs.
  2. В верхнем меню выберите Инструменты> Перевести документ.
  3. Введите имя для нового документа и выберите язык. Щелкните «Перевести».
  4. Переведенная копия вашего документа откроется в новом окне. Вы также можете увидеть эту копию на своем Диске.

Подробнее Читать

Хорошее прочтение, чтобы узнать больше о приложении голосовых переводчиков: . 7 лучших приложений голосового переводчика для Android, которые сделают вашу поездку максимально эффективной. .

Модель сквозного преобразования речи в речь

Авторы: Е Цзя и Рон Вайс, инженеры-программисты, Google AI

Системы преобразования речи в речь были разработаны в течение последних нескольких десятилетий с целью помочь людям, говорящим на разных языках, общаться друг с другом.Такие системы обычно разбиваются на три отдельных компонента: автоматическое распознавание речи для расшифровки исходной речи в виде текста, машинный перевод для перевода транскрибированного текста на целевой язык и синтез текста в речь (TTS) для генерации речи на целевом языке. язык из переведенного текста. Разделение задачи на такой каскад из систем, , оказалось очень успешным и используется во многих коммерческих продуктах для преобразования речи в речь, включая Google Translate.

В разделе «Прямое преобразование речи в речь с помощью модели« последовательность-последовательность »» мы предлагаем новую экспериментальную систему, основанную на единственной модели внимательного преобразования «последовательность в последовательность» для прямого преобразования речи в речь, не полагаясь на о промежуточном текстовом представлении. Названная Translatotron , эта система позволяет избежать разделения задачи на отдельные этапы, обеспечивая несколько преимуществ по сравнению с каскадными системами, включая более высокую скорость вывода, что, естественно, позволяет избежать смешанных ошибок между распознаванием и переводом, что упрощает сохранение голоса исходного говорящего после перевода. , и лучшая обработка слов, которые не нужно переводить (например,g., имена и имена собственные).

Translatotron
Появление сквозных моделей перевода речи началось в 2016 году, когда исследователи продемонстрировали возможность использования единой модели «последовательность-последовательность» для преобразования речи в текст. В 2017 году мы продемонстрировали, что такие сквозные модели могут превосходить каскадные модели. В последнее время было предложено множество подходов к дальнейшему совершенствованию моделей сквозного преобразования речи в текст, включая наши усилия по использованию данных со слабым контролем.Translatotron идет еще дальше, демонстрируя, что единая модель «последовательность-последовательность» может напрямую переводить речь с одного языка в речь на другом языке, не полагаясь на промежуточное текстовое представление на любом языке, как это требуется в каскадных системах.

Translatotron основан на последовательной сети, которая принимает исходные спектрограммы в качестве входных данных и генерирует спектрограммы переведенного контента на целевом языке. Он также использует два других отдельно обучаемых компонента: нейронный вокодер, который преобразует выходные спектрограммы в формы волны во временной области, и, необязательно, кодер динамика, который можно использовать для сохранения характера голоса исходного говорящего в синтезированной переведенной речи.Во время обучения модель последовательность-последовательность использует многозадачную задачу для прогнозирования исходных и целевых транскриптов одновременно с генерацией целевых спектрограмм. Однако во время вывода не используются транскрипты или другие промежуточные текстовые представления.

Модель архитектуры Транслатотрона.

Производительность
Мы проверили качество перевода Translatotron, измерив показатель BLEU, рассчитанный для текста, расшифрованного системой распознавания речи.Хотя наши результаты отстают от обычных каскадных систем, мы продемонстрировали возможность прямого непрерывного преобразования речи в речь.

В аудиоклипах ниже сравниваются результаты прямого преобразования речи в речь из Translatotron с выходными данными базового каскадного метода. В этом случае обе системы обеспечивают подходящий перевод и говорят естественным образом, используя один и тот же канонический голос.

образцы здесь.

Сохранение вокальных характеристик
За счет включения сети кодировщика громкоговорителей Translatotron также может сохранять исходные вокальные характеристики говорящего в переведенной речи, что делает переведенную речь более естественной и менее резкой. Эта функция использует предыдущие исследования Google по проверке и адаптации говорящего для TTS. Кодировщик говорящего предварительно обучен задаче проверки говорящего, он учится кодировать характеристики говорящего из короткого примера высказывания.Настройка декодера спектрограммы на это кодирование позволяет синтезировать речь с аналогичными характеристиками говорящего, даже если контент на другом языке.

Аудиоклипы ниже демонстрируют работу Translatotron при преобразовании голоса исходного говорящего в переведенную речь. В этом примере Translatotron обеспечивает более точный перевод, чем базовая каскадная модель, при этом сохраняя вокальные характеристики исходного говорящего.Выход Translatotron, который сохраняет исходный голос говорящего, обучается с меньшим количеством данных, чем тот, который использует канонический голос, поэтому они дают несколько разные переводы.

Ввод (испанский)
Справочный перевод (английский)
Базовый каскадный перевод
Переводчик Translatotron

Translatotron перевод (канонический перевод

Ввод (испанский)
Справочный перевод (английский)
Базовый каскадный перевод
исходный голос говорящего)

Дополнительные образцы аудио доступны здесь.

Заключение
Насколько нам известно, Translatotron является первой сквозной моделью, которая может напрямую переводить речь с одного языка в речь на другом языке. Он также может сохранять голос говорящего-источника в переведенной речи. Мы надеемся, что эта работа может послужить отправной точкой для будущих исследований систем сквозного преобразования речи в речь.

Благодарности
Это исследование было совместной работой команд Google Brain, Google Translate и Google Speech.Среди авторов: Е Цзя, Рон Дж. Вайс, Фади Биадси, Вольфганг Машери, Мелвин Джонсон, Чжифенг Чен, Менгменг Ню, Куан Ван, Джейсон Пелеканос, Игнасио Лопес Морено, Том Уолтерс, Хейга Зен, Патрик Нгуен, Ю Чжан, Джонатан Шен, Орхан Фират и Юнхуэй Ву. Мы также благодарим Хорхе Перейру и Стеллу Лауренсо за проверку качества перевода из Translatotron.

Создайте приложение для перевода в реальном времени, которое может слушать и говорить — IBM Developer

Сводка

Использование Node.js и React, создайте веб-приложение, которое может стать вашим личным переводчиком. Приложение использует службы IBM® Watson ™ Speech to Text, Watson Language Translator и Watson Text to Speech для расшифровки, перевода и синтеза с вашего микрофона на наушники. Сервисы Watson доступны в IBM Cloud и с Watson API Kit в IBM Cloud Pak for Data. Этот шаблон кода включает инструкции по запуску служб Watson на обоих.

Описание

Построен с использованием компонентов React и Node.js, веб-приложение языкового переводчика захватывает аудиовход и передает его в службу Watson Speech to Text. После расшифровки входной речи она отправляется в службу Watson Language Translator для перевода на выбранный вами язык. Транскрибированный и переведенный текст отображаются приложением в режиме реального времени. Каждая завершенная фраза отправляется в службу преобразования текста в речь Watson для произнесения выбранным вами голосом, зависящим от языкового стандарта.

Лучший способ понять, что такое транскрипция / перевод в реальном времени по сравнению с вокализацией «завершенная фраза», — это попробовать.Вы заметите, что текст обновляется по мере того, как слова и фразы завершаются и становятся более понятными в контексте. Чтобы избежать возврата или наложения звука, озвучиваются только завершенные фразы. Обычно это короткие предложения или высказывания, в которых пауза указывает на перерыв.

Чтобы получить наилучшие впечатления от живого выступления, наденьте наушники и слушайте переведенную версию того, что слушает ваш микрофон. Кроме того, вы можете использовать кнопки-переключатели, чтобы сначала записать и расшифровать без перевода.Когда будете готовы, выберите язык и голос, а затем включите перевод (и речь).

Когда вы заполнили этот шаблон кода, вы поймете, как:

  • Потоковая передача звука в службу Watson Speech to Text с помощью WebSocket
  • Используйте службу Watson Language Translator с REST API
  • Получение и воспроизведение звука из службы Watson Speech to Text с помощью REST API
  • Интегрируйте службы Watson Speech to Text, Watson Language Translator и Watson Text to Speech в веб-приложение
  • Используйте компоненты React и Node.js сервер

Поток

  1. Пользователь нажимает кнопку микрофона и записывает входящий звук.
  2. Аудио передается в службу преобразования речи в текст с помощью WebSocket.
  3. Отображается и обновляется транскрибированный текст из службы преобразования речи в текст.
  4. Расшифрованный текст отправляется в Language Translator, а переведенный текст отображается и обновляется.
  5. Завершенные фразы отправляются в функцию преобразования текста в речь, и полученный звук воспроизводится автоматически.

Найдите подробные инструкции для этого шаблона в файле README. Эти шаги покажут вам, как:

  1. Предоставление услуг Watson.
  2. Разверните сервер.
  3. Воспользуйтесь веб-приложением.

Google представляет расширенный голосовой перевод в реальном времени

Кредит: Google

Google анонсировал новую функцию транскрипции в реальном времени для своего бесплатного приложения Translate для телефонов Android. Компания заявляет, что в будущем планируется выпустить версию iOS.

Эта функция позволит пользователям мгновенно получать текстовые переводы текущих речей, лекций или монологов на любой из восьми языков, включая английский.

В настоящее время Translate позволяет преобразовывать только относительно короткие фрагменты речи.

Единственными требованиями являются одновременное общение только одного говорящего в тихой комнате (другие голоса или шумы снижают точность) и подключение к Интернету, необходимое для взаимодействия с облачными модулями тензорной обработки Google.

Внедрение начинается сегодня (18 марта) и должно быть доступно всем пользователям к концу недели в магазине Google Play.

В режиме разговора приложение позволяет пользователям разговаривать взад-вперед с кем-то, кто говорит на другом языке.

Помимо английского доступны переводы на французский, немецкий, хинди, португальский, русский, испанский и тайский.

Приложение также будет работать с воспроизведением предварительно записанного звука. Но Google говорит, что прямой цифровой перевод загруженных аудиофайлов пока недоступен.

Объявление на этой неделе — напоминание о том, как далеко мы продвинулись с первых дней цифрового распознавания голоса. Bell Laboratories представила свою футуристическую систему «Одри» в 1952 году, которая распознавала голосовые цифры 0–9. Десять лет спустя был сделан гигантский шаг, когда IBM представила «Обувную коробку» на Всемирной выставке 1962 года — она ​​смогла распознать колоссальные 16 слов.

В течение пяти лет в 1970-х годах американские вооруженные силы сильно продвинули распознавание голоса.Министерство обороны финансировало масштабные исследовательские проекты по распознаванию речи, в том числе инициативу Карнеги-Меллона «Гарпия» по изучению понимания речи (SUR), в рамках которой словарь распознавания насчитывает более 1011 слов. Эта программа, в частности, впервые представила концепцию моделей произношения и вероятности, значительно улучшив способность распознавать различные режимы речи.

1980-е принесли еще большие успехи в обнаружении слов, когда исследователи применили теорию вероятности к неизвестным звукам.Программа технологического гиганта IBM расширила распознавание до 5000 слов. Но это десятилетие лучше всего запомнилось появлением первой в мире говорящей куклы «Джули», которая понимала речь. В рекламной кампании говорилось: «Наконец-то кукла, которая вас понимает».

Dragon принес в массы распознавание голоса в 1990-х, выпустив свой первый в значительной степени точный, но все еще несовершенный потребительский продукт по цене «всего» 9000 долларов.К концу десятилетия значительно улучшенная программа Dragon NaturallySpeaking, которая впервые не требовала пауз между каждым произнесенным словом, стала доступна потребителям примерно за 700 долларов.

Сегодня у нас есть Siri и Alexa, а также другие бесплатные и недорогие мобильные приложения, которые позволяют нам запрашивать маршруты проезда, заказывать еду, покупать предметы домашнего обихода и печатать голосовой текст в электронных письмах и текстовых документах, все из которых расширили распознавание речи до баллов. невообразимое еще не так много лет назад.

С последними достижениями, доступными миллионам пользователей портативных устройств, Гарпия, Одри, Джули, вероятно, потеряют дар речи.


Привет, Google, будь моим переводчиком на испанский


Дополнительная информация:
www.blog.google/products/trans… e / transcribe-speech /

© 2020 Сеть Science X

Ссылка :
Google представляет расширенный голосовой перевод в реальном времени (18 марта 2020 г.)
получено 24 ноября 2021 г.
из https: // techxplore.ru / news / 2020-03-google-real-time-voice.html

Этот документ защищен авторским правом. За исключением честных сделок с целью частного изучения или исследования, никакие
часть может быть воспроизведена без письменного разрешения. Контент предоставляется только в информационных целях.

Создайте собственное приложение голосового переводчика в реальном времени с помощью сервисов AWS

Только представьте — вы говорите что-то на одном языке, а инструмент немедленно переводит это на другой язык.Не было бы еще круче создать собственное приложение голосового переводчика в реальном времени с помощью сервисов AWS? Это было бы похоже на рыбу Вавилона из The Hitchhiker’s Guide to the Galaxy :

«Вавилонская рыба маленькая, желтая, похожая на пиявку — и, вероятно, самая странная вещь во вселенной… Если вы воткнете одну себе в ухо, вы сразу поймете все, что вам говорят на любом языке».

Дуглас Адамс, Автостопом по Галактике

В этом посте я покажу, как можно подключить несколько сервисов в AWS, чтобы создать собственное приложение, которое работает как вавилонская рыба.

Об этом сообщении в блоге
Время читать 15 минут
Время до завершения 30 минут
Стоимость завершения Менее $ 1
Уровень обучения Средний (200)
Сервисы AWS Amazon Polly, Amazon Transcribe, Amazon Translate, AWS Lambda, Amazon CloudFront, Amazon S3

Обзор

Ядром этого приложения является функция AWS Lambda, которая соединяет следующие три языковых сервиса AI:

  • Amazon Transcribe — Эта полностью управляемая и постоянно обучаемая служба автоматического распознавания речи (ASR) принимает аудио и автоматически генерирует точные расшифровки.Amazon Transcribe поддерживает транскрипцию в реальном времени, что помогает достичь преобразования почти в реальном времени.
  • Amazon Translate — Эта служба нейронного машинного перевода обеспечивает быстрый, качественный и доступный языковой перевод.
  • Amazon Polly — этот сервис преобразования текста в речь использует передовые технологии глубокого обучения для синтеза речи, которая звучит как человеческий голос.

Схематическое изображение взаимосвязи этих трех служб показано на следующем рисунке.

Чтобы немного упростить этот процесс, можно использовать шаблон AWS CloudFormation, который запускает приложение. На следующей диаграмме показаны все компоненты этого процесса, которые я позже подробно опишу.

Вот последовательность сервисных взаимодействий:

  1. Разрешите доступ к своему сайту с помощью Amazon CloudFront, который позволяет получить HTTPS-ссылку на вашу страницу и которая требуется некоторым браузерам для записи звука.
  2. Разместите свою страницу на Amazon S3, что упрощает все решение. Это также место для сохранения входного аудиофайла, записанного в браузере.
  3. Получите безопасный доступ к S3 и Lambda из браузера с помощью Amazon Cognito.
  4. Сохраните входной аудиофайл на S3 и вызовите лямбда-функцию. Во вводе функции укажите имя аудиофайла (который вы сохранили ранее в Amazon S3) и передайте параметры исходного и целевого языков.
  5. Преобразуйте аудио в текст с помощью Amazon Transcribe.
  6. Переведите расшифрованный текст с одного языка на другой с помощью Amazon Translate.
  7. Преобразуйте новый переведенный текст в речь с помощью Amazon Polly.
  8. Сохраните выходной аудиофайл обратно в S3 с помощью функции Lambda, а затем верните имя файла на свою страницу (вызов JavaScript). Вы можете вернуть сам аудиофайл, но для простоты сохраните его на S3 и просто верните его имя.
  9. Автоматически воспроизводить переведенный звук для пользователя.
  10. Увеличьте скорость доставки файла с помощью CloudFront.

Начало работы

Как я упоминал ранее, я создал шаблон AWS CloudFormation для создания всех необходимых ресурсов.

  1. Войдите в консоль, а затем выберите Launch Stack , который запускает стек CloudFormation в вашей учетной записи AWS. Стек запускается в регионе Восток США-1 (Северная Вирджиния).
  2. Пройдите через мастер и создайте стек, приняв значения по умолчанию.На последнем шаге мастера подтвердите, что CloudFormation создает IAM. Через 10–15 минут стек был создан.
  3. В разделе стека Outputs , показанном на следующем снимке экрана, вы найдете следующие четыре параметра:
    • VoiceTranslatorLink — ссылка на вашу веб-страницу.
    • VoiceTranslatorLambda —Имя лямбда-функции, которая будет вызываться из вашего веб-приложения.
    • VoiceTranslatorBucket — сегмент S3, в котором размещается ваше приложение и где хранятся аудиофайлы.
    • IdentityPoolIdOutput — идентификатор пула идентификаторов, который позволяет безопасно подключаться к S3 и Lambda.
  4. Загрузите следующий zip-файл и распакуйте его. Внутри три файла.
  5. Откройте загруженный файл с именем voice-translator-config.js и отредактируйте его на основе четырех выходных значений в стеке (шаг 3). Тогда он должен выглядеть примерно так.
      var bucketName = 'voicetranslatorapp-voicetranslat ……';
    var IdentityPoolId = 'us-east-1: 535 …….';
    var lambdaFunction = 'VoiceTranslatorApp-VoiceTranslatorLambda-….';  
  6. В консоли S3 откройте корзину S3 (созданную шаблоном CloudFormation). Загрузите все три файла, включая измененную версию voice-translator-config.js .
  7. После загрузки файлов выберите три файла и сделайте их общедоступными, нажав кнопку Action и выбрав Сделать общедоступным .

Тестирование

Откройте приложение по ссылке, указанной на шаге 3.В интерфейсе приложения «Голосовой переводчик» выполните следующие действия, чтобы протестировать процесс:

  1. Выберите исходный язык.
  2. Выберите целевой язык.
  3. Подумайте, что сказать, выберите НАЧАТЬ ЗАПИСЬ и начните говорить.
  4. Когда вы закончите говорить, выберите ОСТАНОВИТЬ ЗАПИСЬ и подождите пару секунд.

Если все работает нормально, приложение должно автоматически воспроизводить звук на целевом языке.

Заключение

Как видите, создание собственного уникального приложения голосового перевода на основе существующих интегрированных языковых сервисов искусственного интеллекта в AWS занимает меньше часа. Кроме того, весь процесс выполняется без сервера.

Это приложение в настоящее время поддерживает два языка ввода: английский (США) и испанский (США). Однако недавно Amazon Transcribe начал поддерживать преобразование речи в текст в реальном времени на британском английском, французском и канадском французском языках.Не стесняйтесь попробовать расширить свое приложение, используя эти языки.

Чтобы увидеть исходный код приложения (включая функцию Lambda, написанную на JavaScript), вы можете найти его в репозитории GitHub приложения voice-translator-app. В дополнение к использованию браузера для записи вашего голоса я также использовал этот сценарий рекордера .js Мэтта Даймонда.


Об авторе

Томаш Стахлевски (Tomasz Stachlewski) — архитектор решений в AWS , где он помогает компаниям любого размера (от стартапов до предприятий) в их облачном путешествии.Он твердо верит в инновационные технологии, такие как бессерверная архитектура, которая позволяет компаниям ускорить цифровую трансформацию.

показан публично] Google Translate тестирует режим непрерывного перевода для голосового ввода.

Обновление (28.01.20, 17:00 по восточному времени): Google продемонстрировал предстоящий режим Transcribe Translate на мероприятии AI Press Day.

Ранее в этом месяце Google представил новый режим переводчика для Google Assistant.Как следует из названия, новый режим позволяет вам использовать Google Assistant в качестве переводчика для ряда разных языков. Эта функция позволяет с помощью простой команды переводить все, что вы говорите, на другой язык в режиме реального времени. Сейчас Google тестирует аналогичную функцию для Google Translate.

Функция, называемая «Непрерывный перевод», позволяет переводить непрерывную речь в Google Translate для облегчения беседы. Эта функция отображается в виде нового значка с надписью «Слушать» рядом со значками «Камера» и «Разговор» в приложении.При выборе значка «Слушать» вы попадаете в новое окно с большой кнопкой микрофона внизу. Как обычно, вы можете выбрать свой язык и целевой язык на верхней панели инструментов, а затем говорить, удерживая кнопку микрофона. Затем приложение переводит вашу речь на целевой язык в режиме реального времени.

На странице «Прослушивание» также есть кнопка настроек рядом с кнопкой микрофона, которая позволяет изменять размер переведенного текста, тему и переключатель для отображения исходного текста.Эту функцию также заметила Джейн Манчун Вонг, опытный реверс-инженер, которая ранее обнаружила несколько новых функций в нескольких приложениях. На данный момент кажется, что пользовательский интерфейс для функции непрерывного перевода находится на стадии прототипа, и Google может улучшить его до его выпуска. В настоящее время эта функция включает поддержку арабского, китайского, английского, французского, немецкого, хинди, итальянского, японского, корейского, португальского, русского, испанского, тайского, турецкого и вьетнамского языков. Количество поддерживаемых языков также может измениться к тому времени, когда эта функция будет развернута в будущей версии Google Translate.


Обновление: опубликовано

В прошлом месяце функция непрерывного разговора Google Translate была обнаружена на этапе прототипа. Сегодня компания впервые продемонстрировала его публике на мероприятии AI Press Day. Функция перевода в реальном времени потребует подключения к Интернету при запуске и сначала не будет работать с аудиофайлами. Конечно, это можно обойти, просто поднеся телефон к динамику.

Google сообщает, что при непрерывном разговоре постоянно оцениваются целые предложения, пока воспроизводится звук.Затем он добавляет знаки препинания, исправления и варианты слов в зависимости от контекста. Он также пытается исправить такие вещи, как акценты и региональные диалекты, что может быть сложно. Google говорит, что результат должен быть «точным приближением» того, что говорит человек.

Пользовательский интерфейс по-прежнему тот же, что мы видели в исходном посте выше. Пользователь получает несколько параметров для настройки отображения переведенного текста. Эта функция обладает огромным потенциалом, и Google считает ее «значительным экспериментальным шагом, чтобы разблокировать непрерывный перевод речи в большом масштабе.