Содержание
Машинный перевод становится синхронным — Системный Блокъ
Поисковик Baidu («китайский Google») разработал систему на базе искусственного интеллекта, способную переводить синхронно сразу два языка. Амбициозно назвав систему «Синхронный перевод, предвидение и контролируемое время ожидания» (STACL), компания заявила о «серьезном прорыве» в обработке естественного языка. STACL, в отличие от большинства систем перевода на базе технологий искусственного интеллекта (ИИ), способна приступить к переводу всего несколькими секундами позже самого оратора и заканчивать перевод реплики через пару секунд после того, как она была завершена.
Синхронный перевод принципиально отличается от последовательного перевода, в котором переводчик ждет окончания речи говорящего, чтобы начать переводить. Последовательному переводу (письменному, а затем и устному) компьютеры учатся давно и небезуспешно — ведь при наличии целого готового предложения не так сложно найти ему переводное соответствие при помощи статистики. А вот синхронный перевод остается большим вызовом.
Baidu объявили, что они решили проблему посредством моделирования системы по образу устных переводчиков. STACL прогнозирует слова, которые нужно перевести, объединяет перевод и ожидание в единую модель — «wait-k» — которая всегда переводит ключевые слова сразу после речи говорящего, обеспечивая условия для прогнозирования. (Система способна использовать доступные префиксы исходного предложения, чтобы определить следующее слово в переводе).
Источник: демонстрационный сайт системы STACL
Вот как Baidu объясняет это:
«В [примере] „Bùshí zǒngtǒng zài Mòsīkē“ („президент Буш в Москве“) после перевода на английский язык первых двух слов (k=2) как „President Bush“ [президент Буш] наша система точно предсказывает, что перевод следующего слова должен быть „встреча“, потому что Буш, вероятно, ’встречался’ с кем-то (например, с Путиным) в Москве, задолго до того, как будет произнесен соответствующий китайский глагол».
Другое преимущество технологии STACL — гибкий подход к задержкам. Длительность ожидания может быть установлена ниже или выше в зависимости от того, насколько сильно связаны два языка между собой — например, он ниже для французского и испанского языков и выше для далеких друг от друга языков, таких как английский и китайский, или языков с различным порядком слов, таких как английский и немецкий.
«Качество перевода чаще всего страдает от невысоких требований к задержке, но наша система жертвует лишь небольшой потерей качества по сравнению с обычным переводом полного предложения (например, несинхронным), — пишет Baidu. — Мы продолжаем улучшать качество перевода с учетом низких требований ко времени задержки».
Можно ли сравнить STACL, последовательный машинный перевод и людей-переводчиков? По утверждению Baidu, его качество по метрике BLEU («Системный Блокъ» уже рассказывал об этом популярном методе оценки качества машинного перевода, основанном на измерении близости к профессиональному человеческому переводу) приблизительно на 3,4 пункта ниже машинного перевода полных предложений.
«Даже с последними достижениями мы полностью осознаем многие ограничения системы синхронного машинного перевода, — пишет Baidu. — Релиз STACL не предназначен для замены людей-переводчиков, от которых в течение многих лет будут зависеть профессиональные услуги, а скорее для того, чтобы сделать синхронный перевод более доступным».
Система Baidu появилась через несколько месяцев после того, как компания объявила, что DuerOS, их помощник по искусственному интеллекту, достиг уровня по числу установок в 100 миллионов устройств по сравнению с 50 миллионами устройств шесть месяцев назад.
«Раньше мы были поисковой системой, но в эпоху искусственного интеллекта мы хотим быть компанией на базе ИИ», — сообщил исполнительный директор Baidu Кунь Цзин в интервью VentureBeat в прошлом году.
Технология STACL развивает более ранние работы в области распознавания речи и искусственного интеллекта. В 2016 и 2017 годах Baidu запустила SwiftScribe, систему распознавания голосовых сообщений на платформе DeepSpeech, и TalkType, голосовую клавиатуру Андроид. В июле 2018 был представлен специально разработанный чип — Kunlun Al — для облачных вычислений и edge computing. Тогда же был представлен Baidu Brain 3.0 — набором 110 ИИ-сервисов в диапазоне от обработки естественного языка и заканчивая компьютерным зрением.
Baidu — не единственная компания, продвигающая ИИ в машинном переводе и распознавании речи. Microsoft в 2018 году продемонстрировал систему, которая выдавала для новостей на китайском английский перевод, очень близкий к человеческому. Facebook применяет машинное обучение без учителя (unsupervised learning) для перевода контента с одного языка на другой. А исследователи из Университета Торонто разработали модель автономного распознавания речи, точность работы которой составляет до 97 %.
Перевод: Зеленина Анастасия, Плахина Виктория, Адукевич Даниил, Опокина Арина, Гураш Валерия, Башловкина Анастасия, Маркова Мария, Белоусова Анна
Материал подготовлен совместно с группой переводческих компаний AKM Translations
Источник: Google’s Translatotron is an end-to-end model that mimics human voices
Автор: Системный Блокъ
Теги:машинный перевод, синхронный перевод
Машинный перевод — документация Weblate 4.
3.2
В Weblate встроена поддержка нескольких сервисов машинного перевода, которая может быть включена администратором с помощью добавления соответствующих значений в список MT_SERVICES
. Эти сервисы идут с собственными условиями своего использования, поэтому убедитесь, что вам разрешено использовать их так, как вы хотите.
Исходный язык можно настроить в конфигурации проекта.
amaGama
Специальная установка tmserver, запущенная авторами Virtaal.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.tmserver.AmagamaTranslation
.
См.также
Установка amaGama, Amagama, Память переводов amaGama
Apertium
Свободная платформа ПО машинного перевода, обеспечивающая переводы на ограниченный набор языков.
Рекомендуемый способ использования Apertium — запуск собственного сервера Apertium-APy.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate. machinery.apertium.ApertiumAPYTranslation
и заданием параметра MT_APERTIUM_APY
.
См.также
MT_APERTIUM_APY
, Веб-сайт Apertium, Документация Apertium APy
AWS
Добавлено в версии 3.1.
Amazon Translate — это сервис машинного перевода при помощи нейронных сетей для перевода текста на английский язык и с английского языка на широкое множество поддерживаемых языков.
1. Turn on this service by adding weblate.machinery.aws.AWSTranslation
to
MT_SERVICES
.
Установите модуль boto3.
Настройте Weblate.
См.также
MT_AWS_REGION
, MT_AWS_ACCESS_KEY_ID
, MT_AWS_SECRET_ACCESS_KEY
Документация по Amazon Translate
Машинный перевод через API Baidu
Добавлено в версии 3.2.
Сервис машинного перевода, предоставляемый Baidu.
Этот сервис использует API, и чтобы его использовать, вам нужно получить от Baidu идентификатор и ключ API.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.baidu.BaiduTranslation
и заданием параметров MT_BAIDU_ID
и MT_BAIDU_SECRET
.
См.также
MT_BAIDU_ID
, MT_BAIDU_SECRET
API переводчика Baidu
DeepL
Добавлено в версии 2.20.
DeepL — это платный сервис, предоставляющий хороший машинный перевод на несколько языков. Вам необходимо приобрести подписку на DeepL API или воспользоваться устаревшим планом DeepL Pro (classic).
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.deepl.DeepLTranslation
и заданием параметра MT_DEEPL_KEY
.
Подсказка
В случае, если у вас есть подписка на CAT-инструменты, вы должны использовать «API v1» вместо «v2», которую по умолчанию использует Weblate (в данном случае это не совсем версия API). Вы можете изменить его с помощью параметра MT_DEEPL_API_VERSION
.
См.также
MT_DEEPL_KEY
, MT_DEEPL_API_VERSION
, Веб-сайт DeepL, Цены на DeepL, Документация по API DeepL
Glosbe
Бесплатный словарь и память переводов для почти всех живых языков.
API можно использовать бесплатно, но при условии наличия лицензии на используемый источник данных. Для борьбы со злоупотреблениями существует ограничение на количество вызовов API, которое можно выполнить с одного IP в течение установленного периода времени.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.glosbe.GlosbeTranslation
.
См.также
Веб-сайт Glosbe
Google Translate
Сервис машинного перевода, предоставляемый Google.
Этот сервис использует API Переводчика Google, поэтому вам нужно получить ключ API и включить тарифный план в консоли Google API.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.google. GoogleTranslation
и заданием параметра MT_GOOGLE_KEY
.
См.также
MT_GOOGLE_KEY
, Документация по переводчику Google
Google Translate API V3 (расширенный)
Сервис машинного перевода, предоставляемый облачными сервисами Google Cloud.
Этот сервис отличается от предыдущего способом аутентификации. Для включения сервиса добавьте в список MT_SERVICES
значение weblate.machinery.googlev3.GoogleV3Translation
и задайте параметры
MT_GOOGLE_CREDENTIALS
MT_GOOGLE_PROJECT
Если без location у вас не заработает, вам также может потребоваться указать параметр MT_GOOGLE_LOCATION
.
См.также
MT_GOOGLE_CREDENTIALS
, MT_GOOGLE_PROJECT
, MT_GOOGLE_LOCATION
Документация по переводчику Google
Переводчик Microsoft Cognitive Services
Добавлено в версии 2. 10.
Сервис машинного перевода, предоставляемый Microsoft на портале Azure в качестве одного из сервисов Cognitive Services.
Weblate реализует API переводчика версии V3.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.microsoft.MicrosoftCognitiveTranslation
и заданием параметра MT_MICROSOFT_COGNITIVE_KEY
.
API переводчика текста версии V2
Ключ, который вы используете для API переводчика версии V2, можно использовать с API версии 3.
API переводчика текста версии V3
Вам необходимо зарегистрироваться на портале Azure и использовать полученный там ключ. При использовании новых ключей Azure вам также потребуется установить параметр MT_MICROSOFT_REGION
в локаль вашего сервиса.
См.также
MT_MICROSOFT_COGNITIVE_KEY
, MT_MICROSOFT_REGION
, Cognitive Services — API переводчика текста, Портал Microsoft Azure
Microsoft Terminology Service (Терминологическая служба Майкрософт)
Добавлено в версии 2. 19.
API терминологической службы Майкрософт позволяет программно получать доступ к терминологии, определениям и строкам пользовательского интерфейса (UI), доступным на языковом портале, через веб-сервис.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.microsoftterminology.MicrosoftTerminologyService
.
См.также
API терминологической службы Майкрософт
ModernMT
Добавлено в версии 4.2.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.modernmt.ModernMTTranslation
и заданием параметра MT_MODERNMT_KEY
.
См.также
ModernMT API,
MT_MODERNMT_KEY
,
MT_MODERNMT_URL
MyMemory
Огромная память переводов с машинным переводом.
Бесплатное анонимное использование в настоящее время ограничено 100 запросами в день, или 1000 запросами в день при указании контактного адреса электронной почты в параметре MT_MYMEMORY_EMAIL
. Также вы можете запросить у них увеличение лимитов.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.mymemory.MyMemoryTranslation
и заданием параметра MT_MYMEMORY_EMAIL
.
См.также
MT_MYMEMORY_EMAIL
, MT_MYMEMORY_USER
, MT_MYMEMORY_KEY
, Веб-сайт MyMemory
API машинного перевода NetEase Sight
Добавлено в версии 3.3.
Сервис машинного перевода, предоставляемый Netease.
Этот сервис использует API, поэтому вам необходимо получить от NetEase ключ и секрет.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.youdao.NeteaseSightTranslation
и заданием параметров MT_NETEASE_KEY
и MT_NETEASE_SECRET
.
См.также
MT_NETEASE_KEY
, MT_NETEASE_SECRET
Платформа перевода Netease Sight
tmserver
Вы можете запустить свой собственный сервер памяти переводов, используя сервер, сходящий в поставку с Translate-toolkit, и настроив общение Weblate’а с ним. Также вы можете использовать его с сервером amaGama, который является расширенной версией tmserver’а.
Сперва вам нужно импортировать в память переводов некоторые данные:
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.tmserver.TMServerTranslation
.
build_tmdb -d /var/lib/tm/db -s en -t cs locale/cs/LC_MESSAGES/django.po build_tmdb -d /var/lib/tm/db -s en -t de locale/de/LC_MESSAGES/django.po build_tmdb -d /var/lib/tm/db -s en -t fr locale/fr/LC_MESSAGES/django.po
Запустите tmserver, чтобы он слушал ваши запросы:
tmserver -d /var/lib/tm/db
Настройте Weblate для общения с ним:
MT_TMSERVER = 'http://localhost:8888/tmserver/'
См.также
MT_TMSERVER
, tmserver Установка amaGama, Amagama, Память переводов Amagama
Yandex Translate (Яндекс.Переводчик)
Сервис машинного перевода, предоставляемый Яндексом.
Этот сервис использует API переводчика, поэтому вам необходимо получить от Яндекса ключ API.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.yandex.YandexTranslation
и заданием параметра MT_YANDEX_KEY
.
См.также
MT_YANDEX_KEY
, API Яндекс.Переводчика, Яндекс.Переводчик
API машинного перевода Youdao Zhiyun
Добавлено в версии 3.2.
Сервис машинного перевода, предоставляемый Youdao.
Этот сервис использует API, поэтому вам необходимо получить от Youdao идентификатор и ключ API.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.youdao.YoudaoTranslation
и заданием параметров MT_YOUDAO_ID
и MT_YOUDAO_SECRET
.
См.также
MT_YOUDAO_ID
, MT_YOUDAO_SECRET
, Сервис переводов Youdao Zhiyun с естественных языков
Weblate
Weblate также сам может быть источником машинных переводов. Этот перевод основан на движке полнотекстового поиска Woosh и выдаёт как точные, так и приблизительные соответствия.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.weblatetm.WeblateTranslation
.
Память переводов Weblate’а
Добавлено в версии 2.20.
Память переводов также может использоваться в качестве источника предложений машинного перевода.
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.machine.WeblateMemory
. Он включён по умолчанию.
SAP Translation Hub
Сервис машинного перевода, предоставляемый SAP.
Для использования этой службы вам необходимо иметь учётную запись SAP (и включить SAP Translation Hub в облачной платформе SAP).
Этот сервис включается добавлением в список MT_SERVICES
значения weblate.machinery.saptranslationhub.SAPTranslationHub
и заданием доступа либо к песочнице, либо к рабочему API.
Примечание
Для доступа к API песочницы необходимо задать параметры MT_SAP_BASE_URL
и MT_SAP_SANDBOX_APIKEY
.
Для доступа к рабочему API необходимо задать параметры MT_SAP_BASE_URL
, MT_SAP_USERNAME
и MT_SAP_PASSWORD
.
См.также
MT_SAP_BASE_URL
,
MT_SAP_SANDBOX_APIKEY
,
MT_SAP_USERNAME
,
MT_SAP_PASSWORD
,
MT_SAP_USE_MT
SAP Translation Hub API
Пользовательский машинный перевод
Также вы можете реализовать собственные сервисы машинного перевода, написав всего несколько строк кода на Python. В этом примере реализован машинный перевод на фиксированный список языков через модуль Python dictionary
:
# # Copyright © 2012 - 2020 Michal Čihař <[email protected]> # # This file is part of Weblate <https://weblate.org/> # # This program is free software: you can redistribute it and/or modify # it under the terms of the GNU General Public License as published by # the Free Software Foundation, either version 3 of the License, or # (at your option) any later version. # # This program is distributed in the hope that it will be useful, # but WITHOUT ANY WARRANTY; without even the implied warranty of # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the # GNU General Public License for more details. # # You should have received a copy of the GNU General Public License # along with this program. If not, see <https://www.gnu.org/licenses/>. # """Machine translation example.""" import dictionary from weblate.machinery.base import MachineTranslation class SampleTranslation(MachineTranslation): """Sample machine translation interface.""" name = "Sample" def download_languages(self): """Return list of languages your machine translation supports.""" return {"cs"} def download_translations(self, source, language, text, unit, user, search): """Return tuple with translations.""" for t in dictionary.translate(text): yield {"text": t, "quality": 100, "service": self.name, "source": text}
Вы можете добавить свой класс в MT_SERVICES
и Weblate начнёт его использовать.
Baidu бросает вызов Google с помощью искусственного интеллекта, который переводит языки в режиме реального времени
- В среду Baidu представила инструмент на основе искусственного интеллекта, который может переводить языки в режиме реального времени.
- Функция синхронного перевода была обучена на двух миллионах пар английских и китайских предложений.
- Китайский технологический гигант бросает вызов Google, который в прошлом году представил свой инструмент для перевода в реальном времени.
Робин Ли Яньхун, соучредитель и главный исполнительный директор Baidu, Пекин, Китай, октябрь 2018 г.
Visual China Group | Getty Images
Интернет-гигант Baidu в среду представил инструмент на основе искусственного интеллекта, который может переводить английский язык на китайский и немецкий языки в режиме реального времени, чтобы бросить вызов конкурирующему продукту Google.
До сих пор многие сервисы онлайн-перевода позволяли пользователям произносить или писать предложения, но существовала задержка перед выполнением перевода. Напротив, так называемый инструмент синхронного перевода Baidu позволяет переводить предложения почти мгновенно — во многом подобно цифровой версии того, что делают переводчики.
Этот продукт является прорывом для Baidu, которая последние несколько лет вкладывает значительные средства в ИИ, надеясь построить будущее своего бизнеса на этой технологии.
Так называемая обработка естественного языка — способность машин понимать человеческую речь — развивается быстрыми темпами. Это ключевая технология, которую можно интегрировать в ряд продуктов, особенно в голосовые помощники.
А голосовые технологии рассматриваются как главное поле битвы для технологических гигантов, включая Amazon, Apple и Google Alphabet.
На данный момент инструмент перевода Baidu может переводить только с английского на китайский и наоборот или с английского на немецкий.
Обучение искусственного интеллекта
Инструментам ИИ для обучения требуются огромные объемы данных.
Baidu обучила свой ИИ двум миллионам пар предложений на английском и китайском языках, сообщил в среду CNBC по телефону главный научный сотрудник Baidu Лян Хуанг. Это позволило цифровому переводчику Baidu выполнять перевод почти в реальном времени с двух языков, которые имеют очень разные структуры предложений.
Baidu использовала пример этого предложения в своем блоге в среду: «Президент Буш встречается с президентом России Путиным в Москве».
В китайском языке глагол «встречается» стоит в конце предложения. Но при переводе на английский оно становится третьим словом в предложении, как и подобает этому языку. Благодаря обучению с наборами данных инструмент Baidu может предсказать слово, которое встречается в английском предложении, еще до того, как слово будет произнесено.
«Мы обучаем нашу систему предсказывать английскую сторону с учетом префикса китайской стороны», — сказал Хуан CNBC.
«Из этих данных вы узнаете, что если Буш или любой другой президент США когда-либо находится в Москве, он, вероятно, с кем-то встречается», — добавил ученый.
Это не будет проблемой для несинхронного перевода, так как временной лаг позволяет оценить структуру предложения перед выполнением перевода. Но при переводе в реальном времени задержки быть не может.
Инструмент перевода также можно настроить на задержку, что означает, что пользователь может установить задержку между произносимым словом и его переводом. Чем выше задержка, тем лучше перевод для некоторых языков.
В настоящее время он поддерживает перевод с китайского на английский, но Хуан сказал, что он «не зависит от языка» и в конечном итоге сможет переводить и другие языковые пары.
Новые продукты для перевода
Baidu — крупнейшая поисковая система Китая, поэтому ее часто сравнивают с Google. Его последний продукт появился более чем через год после того, как Google представила Pixel Buds, набор беспроводных наушников, которые, как утверждается, могут выполнять перевод в реальном времени.
Хуанг сказал, что Baidu планирует интегрировать интерпретатор AI в свой Wi-Fi-переводчик, продукт, который компания представила ранее в этом году и который является одновременно портативным интернет-хабом и переводчиком. Компания также будет использовать эту технологию для перевода выступлений на своей ежегодной Всемирной конференции Baidu, которая состоится 1 ноября в Пекине, Китай.
Но Хуанг сказал, что компания не планирует использовать его в других продуктах, таких как голосовой помощник.
«Мы все еще усердно работаем над тем, чтобы сделать его доступным для широкой публики, но мы не знаем, когда это произойдет», — сказал Хуанг.
смотреть сейчас
Однако Baidu признала ограничения своего инструмента перевода и заявила, что, скорее всего, не будет готова заменить переводчиков-людей или занять место реального перевода на крупном политическом мероприятии в ближайшее время.
«Мы надеемся, что эта технология искусственного интеллекта уменьшит нагрузку на переводчиков-людей. Но мы не собираемся заменять переводчиков-людей, от которых мы будем зависеть в течение многих лет, особенно в случаях с высокими ставками, которые требуют последовательного и более точную интерпретацию», — сказал Хуан CNBC.
СМОТРЕТЬ ПРЯМОЙ РЕЖИМ В ПРИЛОЖЕНИИ
СМОТРЕТЬ ПРЯМОЙ КОНТРОЛЬ В ПРИЛОЖЕНИИ
7 приложений для языкового перевода, обязательных для использования в Китае
1. Baidu Translation
https://fanyi.baidu.com/
Baidu Translation публикуется Baidu, опираясь на мощную поисковую систему Baidu, широко собирая ресурсы со всех сторон и используя технологию больших данных для интеграции и удаления сложных и упрощенных переводов. Отбираются только самые точные и лаконичные переводы, чтобы предоставлять пользователям более качественные услуги. Baidu Translator в настоящее время использует самые передовые технологии перевода, чтобы предоставить пользователям наиболее выгодные результаты перевода. С хорошей репутацией пользователей становится больше.
2. Переводчик Youdao
http://fanyi.youdao.com/
Переводчик Youdao разработан NetEase, и все его переводы взяты из Интернета. Youdao поддерживает 107 языковых переводов, которые могут удовлетворить различные потребности всех пользователей. Он известен как программное обеспечение для перевода, которое лучше всего понимает китайский язык. Это очень лаконичное, простое в использовании и очень простое программное обеспечение для перевода.
3. Переводчик Google
https://translate.google.com/
Google Translate опирается на мощный движок Google с очень богатой языковой библиотекой с более чем сотней языков. Можно не только вводить перевод, но и делать фотографии и вводить перевод. Даже если вы не в сети, вы можете перевести пятьдесят два языка, что очень удобно в использовании.
4. Переводчики за границей
https://www.qcmuzhi.com/
Пользователи могут легко понять значение 29 языков
5. Flitto
https://www.flitto.com.cn/
Translate поддерживает 23 языка
6. Голосовой переводчик
http://www.voice-translator.net/
Языковой переводчик поддерживает перевод на 22 основных языка
7.