Перевод искусственный интеллект: Как работает искусственный интеллект в области литературного перевода

Содержание

Как работает искусственный интеллект в области литературного перевода

Когда в 2006 году был запущен Google Translate, он имел в арсенале только два языка перевода. В 2016 году уже было более 103 языков, и он переводил более 100 миллиардов слов в день. Система может не только переводить, но и транскрибировать в режиме реального времени восемь наиболее распространенных языков. Машины учатся, и учатся они очень быстро.

Алана Куллен

Тем не менее, есть некоторые лингвистические коды, которые этим машинам все еще предстоит взломать. Искусственный интеллект продолжает бороться с огромной сложностью человеческого языка, и нигде язык не является таким сложным и значимым, как в литературе. В романах, стихах и пьесах красота слов порою заключается в нюансах и деталях. Машины переводят слово в слово, следуя при этом установленным лингвистикой правилам, поэтому традиционные системы перевода часто не понимают значения литературных текстов. Они не понимают переводимое слово в контексте предложения, параграфа или страницы.

Но есть новая технология, способная разобраться в этом контекстуальном хаосе — Neural Machine Translation (нейронный машинный перевод), сокращенно называемый НМП. Хотя НМП все еще находится в зачаточном состоянии, он уже доказал, что его системы со временем научатся справляться с присущей литературным переводам сложностью. НМП знаменует собой начало новой эры искусственного интеллекта. Он больше не работает по правилам, установленным лингвистами, теперь он создает свои собственные правила и даже свой собственный язык.

НЕЙРОННЫЙ МАШИННЫЙ ПЕРЕВОД (НМП)


НМП появился в 2016 году. На сегодняшний день это самое успешное программное обеспечение для перевода. Помимо того, что он смог снизить погрешность на 60 % — по сравнению со своим предшественником, статистическим машинным переводом (СМП), НМП также значительно быстрее работает.

Улучшения обеспечиваются искусственной нейронной сетью системы. Это значит, что НМП базируется на модели нейронов, созданной по подобию существующей в мозге человека. Эта сеть позволяет программному обеспечению создавать контекстные связи между словами и фразами. Она может создавать эти связи, изучая языковые правила. Она сканирует миллионы блоков из вашей базы данных, определяя общие черты. Затем машина использует заученные правила для создания статистических моделей, которые помогут ей понять, каким образом должно строиться предложение.


Искусственная нейросеть. Исходный код вводится в сеть, затем отправляется в различные скрытые „слои” сети и выводится на целевом языке. | Алана Куллен | CC-BY-SA

ИСКУССТВЕННЫЙ ЯЗЫК


Новаторской особенностью НМП является создание нового языка чисел, который помогает при переводе.

Как, например, выглядит фраза «To thine own self be true» из шекспировского «Гамлета»? Машина кодирует каждое слово в число, в так называемые векторы: 1, 2, 3, 4, 5, 6. Этот числовой ряд передается в нейронную сеть, как показано по ссылкам. И далее в этих скрытых слоях происходит «магия». Опираясь на изученные языковые правила, система находит подходящие слова в языке перевода. Генерируются числа 7, 8, 9, 10, 11, соответствующие словам целевого предложения. Затем эти числа расшифровываются и в результате преобразуются в предложение: «Быть верным себе».

По сути, система переводит слова на свой собственный язык, а затем «думает» о том, как, основываясь на том, что она уже знает, она может придать этим словам форму понятного предложения — так, как это сделал бы человеческий мозг.

ПОНИМАНИЕ КОНТЕКСТА


НМП может успешно переводить литературу, поскольку он медленно, но верно понимает контекст. Система фокусируется не только на переводимом слове, но и на словах, стоящих перед ним и за ним.

Как и мозг, расшифровывающий различную информацию, эта искусственная нейронная сеть смотрит на получаемую информацию и генерирует следующее слово на основе предыдущего. Со временем она выучит, на каких словах следует сосредоточиться и, опираясь на существующие примеры, определит, какой контекст имеет основополагающее значение. Этот метод представляет собой один из видов многоуровневого обучения и способствует тому, что система заучивает все больше и больше данных и постоянно совершенствуется. В НМП расшифровка контекста называется «выравниванием», оно происходит с помощью механизма Attention («Внимание»), который занимает в системе промежуточное место между шифрованием и дешифрованием.


Процесс адаптации. Адаптация происходит с помощью механизмов внимания искусственной нейронной сети и делает выводы о контексте слова. | Алана Куллен | CC-BY-SA

Но и машины не совершенны. Когда шекспировская фраза переводится обратно на английский язык, она звучит как «Be true to yourself», что не соответствует тону языка Шекспира и эпохи Тюдоров. Литературный перевод, выполненный слово в слово, звучит как «будь верен своему я», но «живые» переводчики больше склонны переводить эту фразу как «будь верен себе».


Перевод, созданный людьми. Если предложения переведены человеком, соотношения намного сложнее, чем при переводах искусственного интеллекта. Это связано с тем, что люди лучше понимают контекст. | Алана Куллен | CC-BY-SA

Но интересно уже даже то, что Google Translate увидел важность в этом контексте слова «верен». То, что он использовал именно это слово, доказывает, что он смог различить разницу между словами «верный» и «истинный». Многоуровневое обучение означает, что неправильно переведенное предложение может быть переведено правильно, по крайней мере, частично, уже ечерез несколько недель. (Возможно, Google Translate уже исправил свои ошибки к моменту публикации этой статьи.)

Постоянное совершенствование с учетом развития собственного языка означает, что НМП может использоваться для выполнения так называемых переводов Zero-Shot (при отсутствии примеров переводов). Это означает, что он может переводить с одного языка сразу на несколько других языков без использования английского языка в качестве промежуточного варианта. Как и в случае с людьми, к машинам, по-видимому, также применима фраза «Практика приводит к совершенству».

Lost in Translation —

ПОТЕРЯНО ПРИ ПЕРЕВОДЕ


Несмотря на то, что машинный перевод в последние годы уже сделал большие шаги, ему пока не удается достичь литературного стандарта. Генри Джеймс подчеркивал важность понимания текста на языке оригинала, заметив, что идеальным литературным переводчиком должен быть «человек, от которого ничто не ускользает». По крайней мере, в случае с литературой машинам, чтобы соответствовать этому идеалу, предстоит пройти еще очень длинный путь.

При выполнении литературных переводов у НМП возникают проблемы с редкими словами, именами собственными и сложным техническим языком.  Только 25-30 % переводов соответствуют литературному стандарту. Соответствующее исследование, посвященное переводу с немецкого на английский язык, показало, что, хотя система и допускала мало синтаксических ошибок, она часто не находила адекватного перевода для многозначных слов. Несмотря на эти ошибки, по мнению исследователей, качество перевода было достаточным, чтобы понять историю и насладиться ею. Другое исследование, посвященное переводам с английского на каталонский язык, показало столь же хороший результат. 25 % носителей языка обнаружили, что качество машинного перевода вполне сопоставимо с переводом, выполненным человеком.

Однако система перевода не всегда добивается таких хороших результатов. В некоторых языковых парах ей приходится бороться с языками с богатой морфологией, в которых серьезную роль играют словоизменение и интонация. И это в первую очередь касается славянских языков. И особенно бросается в глаза, если вы переводите с менее сложного языка на более сложный. Поэтому НМП пока еще не может использоваться в качестве глобального инструмента перевода.

КАК НАЙТИ ПОДХОДЯЩИЙ СТИЛЬ?


Самая большая проблема заключается в том, чтобы найти для переводимого текста правильный стиль и слог. Питер Константин, директор программы литературного перевода в университете Коннектикута, объяснил, что для успешного перевода литературы машины тоже должны найти подходящий стиль.

«Чему подражает машина? Стремится ли она к блестящей иностранной интерпретации, первоклассно проводящей культурную составляющую? Или язык Чехова покажется таким, как если бы текст был написан десять минут назад в лондонском метро?»

Какой стиль выберет машина? К примеру, рассмотрим обратимся к работам немецкого нобелевского лауреата Томаса Манна. С годами стиль его письма менялся: ранние рассказы были более игривыми, что существенно отличает их слог от поздних, более сложных романов. Если стоит цель уловить точный смысл, машины должны уметь распознавать эти отличия.

ВАЖНАЯ СОВМЕСТНАЯ РАБОТА


Становится ясно, что, несмотря на все свои усилия, учитывая специфическую двусмысленность слов и гибкость литературного языка, машина все еще нуждается в человеческом руководстве. НМП не может заменить живых переводчиков, но может стать полезным инструментом при переводе литературы.

При этом важно взаимодействие между переводами, выполняемыми машиной и человеком. Одним из ответов на данный вопрос может быть постобработка машинного перевода. В данном случае профессиональные переводчики, разбирающиеся в проблемах машинного перевода, могут отредактировать первичную версию машинного перевода — как более опытные коллеги поддерживают своих не очень опытных коллег. Простая постобработка поможет исправить незначительные орфографические ошибки и улучшить грамматику, а углубленное редактирование позволит решить более серьезные проблемы, такие как структура предложений и стиль речи. В литературных переводах обязательна обработка, позволяющая найти правильный стиль перевода. Одно исследование показало, что этот метод оказался на 31 % быстрее при переводе научно-фантастического романа с гэльского на ирландский язык, чем перевод без использования какого-либо программного обеспечения. Кроме того, производительность переводчиков, которые в качестве отправной точки использовали машинный перевод, выросла на 36 %. С помощью этого метода они генерировали за один час на 182 слова больше.

Искусственный интеллект играет все большую роль в нашей жизни, и следует использовать этот инструмент перевода для развития отрасли. Машинный перевод прошел большой путь — от самых азов до отличного вспомогательного инструмента. Программное обеспечение делает мелкую неприятную работу, в то время как переводчики могут посвятить себя чистовой отделке. Это ведет к снятию нагрузки на переводчиков. К тому же, НМП также позволяет переводить с языков, переводы с которых ранее никогда не осуществлялись. Кроме того, НМП может помочь выучить язык. Во время работы мы можем использовать его в качестве обучающего инструмента — ведь он для всех обеспечивает оптимальный доступ к языку и литературе.

Материал является частью проекта Гёте-Института Великобритании, посвящённого искусственному интеллекту и литературному переводу.

Источники:

Brownlee, J. 2017. A Gentle Introduction to Neural Machine Translation. [Accessed 9th July 2020].

Constantine, P. 2019. Google Translate Gets Voltaire: Literary Translation and the Age of Artificial Intelligence. Contemporary French and Francophone Studies. 23(4), pp. 471- 479.

Goldhammer, A. 2016. The Perils of Machine Translation. The Wire. [Accessed 14th July 2020].

Google Brain Team. 2016. A Neural Network for Machine Translation, at Production Scale. [Accessed 9th July 2020].

Gu, J., Wang, Y., Chu, K., Li. V. O. K. 2019. Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations.arXiv. [Accessed 10th July 2020].

Iqram, S. 2020. Now you can transcribe speech with Google Translate. [Accessed 9th July 2020].

Jones, B., Andreas, J., Bauer, D., Hermann, K. M., and Knight, K. 2012. Semantics- Based Machine Translation with Hyperedge Replacement Grammars. Anthology. 12(1083), pp. 1359- 1376.

Kravariti, A. 2018. Machine Translation: NMT translates literature with 25% flawless rate. Translate Plus. [Accessed 14th July 2020].

Matusov, E. 2019. The Challenges of Using Neural Machine Translation for Literature. European Association for Machine Translation: Dublin, Ireland.

Maučec, M. S., and Donaj, G. 2019. Machine Translation and the Evaluation of Its Quality Recent Trends in Computational Intelligence. Intech Open.

Shofner, K. 2017. Statistical vs. Neural Machine Translation. ULG’s Language Solutions Blog. [Accessed 10th July 2020].

Systran. 2020. What is Machine Translation? Rule Based Translation vs. Statistical Machine Translation. [Accessed 9th July 202].

Toral, A., Wieling, M., and Way, A. 2018. Post-editing Effort of a Novel with Statistical and Neural Machine Translation. Frontiers in Digital Humanities. 5(9).

Turovsky, B. 2016. Ten years of Google Translate. [Accessed 9th July 2020].

Wong, S. 2016. Google Translate AI invents its own language to translate with. New Scientist. [Accessed 11th July].

Yamada, M. 2019. The impact of Google Neural Machine Translation on Post-editing by student translators. The Journal of Specialised Translation. 31, pp. 87- 95.

Zameo, S. 2019. Neural Machine Translation: tips and advantages for your digital translations. Text Master Go Global. [Accessed 14th July 2020].

 

как Alconost разрабатывает свой продукт в потоке слухов и хайпа / Хабр

Источник: giphy.com

Искусственный интеллект и его применение — одна из самых нашумевших тем в сфере IT. Многие пытаются примерить искусственный интеллект на себя, представляя, что это чуть ли не панацея, «таблетка от всего». Вокруг темы много разговоров, хайпа, прогнозов и даже фантазий о том, что будет дальше. Немало и путаницы, связанной с самим термином «искусственный интеллект»: часто им называют простую автоматизацию.

Не тренда или хайпа, а дела ради, поговорили об искусственном интеллекте с тимлидом по локализации в Alconost Стасом Харевичем. Стас больше 10 лет помогает IT-компаниям выходить с новыми продуктами на зарубежные рынки, а ещё — запускает в космос пилотирует новый сервис Alconost с применением искусственного интеллекта: доменно-адаптивный машинный перевод с последующей вычиткой. Доменно-адаптивный машинный перевод, выражаясь простыми словами, это перевод, выполненный «умной» машиной, которая обучена на текстах выбранной тематики (домена). Обсудили со Стасом, чем такое решение отличается от традиционного подхода к локализации, как обучить машину и добиться высокого качества и какие есть минусы у искусственного интеллекта.

Стас, привет! Ты занимаешься внедрением искусственного интеллекта в проекты по локализации, можно так сказать? Расскажи, пожалуйста, «для чайников», что такое искусственный интеллект и с чем его едят?

— Привет! Ты знаешь, я думаю, вряд ли кто-то может компетентно рассказать прямо вот обо всех сферах применения искусственного интеллекта. Не зря ведь аналитики данных говорят, что чем специфичнее пул данных и область применения решения, тем оно точнее. Но с удовольствием расскажу о применении искусственного интеллекта в сфере локализации. 

Первым делом я бы упомянул PEMT (post edited machine translation) — машинный перевод с последующим редактированием. Есть “старые” движки машинного перевода, алгоритм которых основан на правилах и статистических данных, когда машина делает перевод без оглядки на предыдущие или текущие переводы и тематическую специализацию текста. Такой перевод нужно существенно редактировать с помощью профессиональных лингвистов. 

NMT (neural machine translation, нейронный машинный перевод) — это уже “новое” решение. Применение нейронных сетей позволило значительно улучшить качество перевода, ведь главное преимущество нейронных сетей — их обучаемость. Поэтому решение, над которым мы работаем сейчас, — это доменно-адаптивный нейронный машинный перевод, который учитывает тематику текста, глоссарий и память предыдущих переводов.

Интересно. Ты хочешь сказать, что на рынке уже есть решение по локализации с использованием нейронного машинного перевода? В чем тогда ценность решения, над которым вы работаете? Может, не нужно изобретать велосипед?

— Все верно, такие решения есть. Есть движки машинного перевода, которыми компании могут пользоваться за разовый платеж или по подписке. И их немало. К примеру, я достаточно тесно работал с как минимум двумя движками от Google: Google AutoML и GNMT (Google Neural Machine Translation). И на рынке много альтернатив, к примеру, Watson Language Translator от IBM и нейросеть от Yandex. Дело в том, что некоторые компании предлагают стоковое решение, то есть ты платишь за подписку — и просто используешь движок. Поставщики стоковых решений заявляют, что их движки обучены на огромном массиве данных и, соответственно, выдают высокое качество. 

Но правда в том, что на практике некоторые движки отлично работают только с определенными языковыми парами, а для других — качество страдает, особенно если речь идет о нишевых темах, таких как игры, к примеру. Кастомизированное решение, в отличие от стокового, позволяет дообучить машину на своем специализированном массиве данных. И это как раз то решение, над которым мы в Alconost сейчас работаем.

А почему вы думаете, что у вас получится лучше, чем у других компаний? К примеру, почему Google, со всеми их возможностями, не превратили Google Translate во что-то подобное? Я к тому, что у них много программистов, специалистов по данным, самих данных и прочих ресурсов. Но профессиональные компании приходят за локализацией к вам, а не в Google Translate…

— Во-первых, по ряду достаточно общих тем и некоторым языковым парам Google Translate, на самом деле, неплохо работает. Но в чем наш конек — так это, во-первых, в опыте нишевого перевода на IT-тематику на 100+ языков. Мы локализовали несколько тысяч проектов за время существования Alconost. И у нас есть свои «большие данные», на которых можно дообучить машину. Кроме того, у нас достаточно данных для того, чтобы адаптировать перевод даже под конкретные жанры игр: скажем, под логические игры, игры-симуляторы или файтинги.  

— А еще есть облачные платформы по локализации с открытыми данными. К примеру, на Crowdin и GitLocalize переводчики и менеджеры по локализации работают над проектами и обмениваются комментариями с клиентами в режиме реального времени. Глоссарии и память переводов, применяемые на этих платформах в рамках одного проекта, технически могут использоваться и другими проектами тоже. И мы представляем, как структурировать эти данные и чему конкретно нужно дообучить движок машинного перевода для каждого проекта. 

По сути, это составляющая науки о данных — структурирование и категоризация релевантного пула данных для дообучения машины. Это главная ценность нашего решения по локализации, которое, по сути, получается очень нишевым, а за счет этого — точным и качественным. 

Во-вторых, у нас есть своя платформа человеческого перевода, она называется Nitro. Там клиенты сами отправляют на перевод короткие тексты — и получают готовый результат в течение 2–24 часов. Интерфейс и пользовательский опыт Nitro проверен годами, и мы постоянно дорабатываем продукт. Вот недавно, к примеру, открыли доступ к Nitro API — теперь компании, у которых много задач, могут не тратить время на отправку заказа через интерфейс Nitro, а получать перевод через Nitro API прямо в свою систему управления контентом. То есть, Nitro — потенциальная клиентская оболочка для обработки заказов по машинному переводу. Ее нужно только синхронизировать с кастомным движком машинного перевода.

А расскажи, пожалуйста, как вы справляетесь именно с технической стороной вопроса? Вы же переводчики, не технари. А задача «дообучить машину» звучит по-технарски и достаточно амбициозно…

— Вообще-то мы как раз технари. Alconost как компания была основана разработчиками и для разработчиков. У нас много программистов и в команде (включая нашего CEO и фаундера), и на аутсорсе. Как-то так сложилось, что у остальных ребят тоже достаточно сильный технический бэкграунд и эдакий стартапный дух. Мы любим придумывать различные кастомные интеграции и решения, которые упрощают работу над проектами. И у нас ведь есть два своих продукта, которые мы развиваем, я упоминал их уже: Nitro и GitLocalize.

А если ближе к теме машинного перевода, то мы даже обсуждали такой сценарий, по которому мы приобретаем движок, хостим и дообучаем его на данных уже у себя, на своем hardware. Конечно, для этого нашей команде понадобятся еще как минимум ответственный программист и специалист по данным, а на проектах — инженер по локализации. Но мы технически хорошо представляем себе эту задачу.

Понятно, основательный подход. Но все-таки почему компании будут заказывать у вас именно машинный перевод, а не локализацию по старинке, человеческим ресурсом? Планируете как-то бороться с недоверием к машинному переводу? Я к тому, что у профессиональных компаний может быть устойчивая ассоциация, прости за повторение, с тем же Google Translate.

Источник: giphy.com

— Большинство клиентов заинтересованы в скорости и качестве. А как мы это делаем — интересует меньшинство. То есть в первую очередь речь идет об оптимизации нашей внутренней кухни. 

Я уже рассказал о нашем подходе к дообучению движка машинного перевода: у нас огромный пул данных, мы используем словари, память перевода, стайлгайды. Поэтому мы оптимистичны по поводу ожидаемого качества, иначе бы мы за это дело не брались — зачем портить то, что уже отлично работает? В любом случае, мы будем предлагать клиентам делать редактуру нашего машинного перевода, поэтому качество не будет никак страдать. 

А вот скорость… Вот представь, если ты можешь получить даже в сыром виде локализованные игровые тексты на 100 языках, скажем, на следующий день, разве это не круто? Конечно, еще уйдет время на редактуру, если она понадобится клиенту. Но машинный перевод в разы ускоряет весь проект. А кто откажется получить готовый результат в несколько раз быстрее, не потеряв в качестве?

А вот по поводу редактирования машинного перевода, не получится ли так, что «качество» как раз и окажется узким местом?

— В общем-то, у нас уже есть опыт в редактировании машинного перевода. У нас было несколько крупных проектов такого плана, и есть отдельные процессы редактирования, тестирования локализации и оценки качества. Но процесс редактирования машинного перевода отличается от стандартного процесса локализации. Тут скорее вопрос в качестве исходника. Разные машины переводят по-разному, поэтому клиенты приходят с машинным переводом разного уровня. Мы предварительно тестируем, измеряем качество. И если мы хотим получить качественные локализованные тексты, нужны глоссарий, бриф по локализации, какие-то примеры уже выполненных переводов, стайлгайд. В целом, это атрибуты любого профессионального проекта по локализации. И когда мы редактируем тексты в облачной платформе, мы автоматически добавляем в проект все эти исходные данные и потом используем их в работе. Так что в целом — да, мы уверены в качестве.

А есть какие-то неопределенные переменные в этом проекте по машинному переводу?

— Один из неопределенных вопросов — ценообразование. Разная тематика требует разных усилий по дообучению машины. И не по всем тематикам у нас одинаковое количество и качество данных. К примеру, у нас тысячи проектов по локализации игр и приложений, но если говорить о художественной литературе —  мы перевели не так много книг. То есть качество художественного машинного перевода будет ожидаемо хуже, чем перевода игр, к примеру. Но мы еще детально это не просчитывали. Возможно, мы сможем предложить какую-то гибкую цену, скажем, за наш машинный перевод с редактированием или без него. Мы еще думаем об этом, будем тестировать разные варианты исходя из потребностей клиента. 

Еще одна неопределенная переменная — точные сроки. Машине нужно будет время на дообучение, и пока сложно сказать, сколько времени понадобится на каждый проект. Я думаю, первые проекты мы будет реализовывать дольше, чтобы отладить алгоритм категоризации данных. 

А если говорить о сроках воплощения вашего решения, можешь назвать их хотя бы ориентировочно? 

— Думаю, в 2022 году у нас уже будет полное решение по кастомизированному машинному переводу. Это будет решение для английского плюс другого языка, то есть когда мы переводим с одного (английского) языка на все другие языки. Мы работаем по такому принципу уже много лет и видим, что именно такой подход обеспечивает последовательность в переводе и, в конечном итоге, его качество.

Ты видишь какие-то новые ниши, которые открывает решение доменно-адаптивного нейронного машинного перевода? 

Для нас как для компании это оптимизация рабочего времени и трудозатрат на перевод, но это внутренняя кухня. А вот по поводу новых ниш — смотри: поскольку перевод будет делаться гораздо быстрее и стоить дешевле полностью «человеческого», компании смогут переводить больше. Например, может стать целесообразным локализовывать контент, который раньше переводили не все, не всегда или не в полном объеме. Скажем, некоторые компании, такие как Booking или Airbnb, переводят отзывы клиентов на разные языки. Почему бы не реализовать это для других приложений? 

А еще сейчас очень популярны технологии текст-майнинга, майнинга изображений и видео для построения аналитики и предсказаний об аудитории. Тут тоже может помочь машинный перевод. Скажем, раньше компьютерные лингвисты анализировали отзывы пользователей для определения тона, эмоциональной окраски, настроения. Сейчас с этой работой прекрасно справятся машины. То есть такой перевод может использоваться для получения данных для построения других моделей с использованием искусственного интеллекта. Я действительно думаю, что мы знаем еще не обо всех таких возможностях.

Очень интересно, Стас. Ну, и напоследок футуристический вопрос из разряда гадания на кофейной гуще: ты веришь, что когда-нибудь машины будут переводить круче, чем человек?

Источник: giphy.com

— На самом деле, я думаю, такие сферы в переводе, где машины покажут себя лучше человека, действительно есть. К примеру, это тексты для поисковой оптимизации в магазинах приложений. Часто клиенты дают нам ключевые слова, которые нужно использовать как глоссарий для создания описания игры или приложения. То же самое работает при локализации рекламных текстов для Google Ads: часто в заголовок нужно включить определенные словосочетания. И эти словосочетания содержат грамматические ошибки или описки. Но они частотные, поэтому клиенту нужны именно эти слова в тексте. Опытный переводчик, как правило, негативно реагирует на такую задачу «с ошибками». А вот машина здесь сработает идеально, как я вижу. 

Еще доменно-адаптивный нейронный машинный перевод классно справится с переводом справочной документации или материалов для корпоративных вики-систем. Это, как правило, однотипные по структуре и языковым конструкциям задачи, где в приоритете точность и адекватность перевода, а не его красочность и образность.

Но ведь главный вопрос, как я уже сказал, в том, как обучена машина: на каких данных, глоссариях и правилах. А их составление — уже задача для человека. В любом случае, получается, без человека никак.


Об Alconost. Alconost занимается локализацией игр, приложений и сайтов на более 100 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов. Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.

Глава «Яндекс.Переводчика» — о том, как искусственный интеллект меняет мир

  • Анастасия Зырянова
  • Русская служба Би-Би-Си

Подпишитесь на нашу рассылку ”Контекст”: она поможет вам разобраться в событиях.

Автор фото, MANJUNATH KIRAN/AFP/Getty Images

Сервис «Яндекс.Переводчик» начинает использовать в своей работе гибридную систему, в которую входят нейросети и статистический метод перевода. Пока что новая модель машинного обучения будет применяться лишь при переводе с английского языка на русский, но компания планирует внедрять этот алгоритм и в другие языковые пары.

Обрабатывая данные, нейросеть не просто следует некоему алгоритму, а ищет пути решения задачи, фактически учится её решать. И чем больше задач она выполняет, тем лучше с ними справляется. Именно за это сходство с принципом работы человеческого мозга нейросети стали называть искусственным интеллектом.

Последнее время всё больше и больше IT-компаний применяют нейросети: так, в сервисах поиска и перевода их уже используют Google и Facebook.

  • Кто переводит лучше — «Яндекс» или Google?
  • Боты изобрели свой язык: почему Facebook испугался искусственного интеллекта?

Технология, разработанная командой «Яндекса», объединяет два подхода в переводе: статистический и нейросетевой. У статистического переводчика «хорошая память»: он запоминает перевод красивых и сложных оборотов и «не фантазирует», но при этом разбивает предложения на куски и плохо связывает их между собой.

Нейросеть же, в свою очередь, переводит не кусками, а целыми предложениями, поэтому перевод получается куда более похожим на речь человека, говорят в компании.

«Текст переводят обе модели, а затем алгоритм на основе метода машинного обучения CatBoost сравнивает результаты и предлагает лучший. Преимущество гибридной системы в том, что она позволяет взять лучшее от каждого метода и повысить качество перевода», — говорится в заявлении компании.

Русская служба Би-би-си поговорила о будущем искусственного интеллекта с Дэвидом Талботом, недавно возглавившем «Яндекс.Переводчик».

Пропустить Подкаст и продолжить чтение.

Подкаст

Что это было?

Мы быстро, просто и понятно объясняем, что случилось, почему это важно и что будет дальше.

эпизоды

Конец истории Подкаст

До этого Талбот работал в Google, где руководил группой специалистов, чьей задачей было «объяснить» машинам принципы функционирования естественных языков (тех языков общения людей, которые не были созданы искусственно, как, например, эсперанто).

Би-би-си: Может показаться, что с таким бурным развитием технологий, которое мы наблюдаем последние годы, гуманитарная наука и специалисты этой области будут всё менее и менее востребованы. Вы работаете долгое время в сфере IT, но также имеете диплом Оксфорда по лингвистике и литературе. Что скажете: гуманитарии и правда скоро будут никому не нужны?

Дэвид Талбот: Нет никакой угрозы для человека из гуманитарной среды со стороны сферы IT. Она и, в особенности, сфера искусственного интеллекта определенно сделает революцию в гуманитарных науках. Она станет для них инструментом, дополнением к человеческим возможностям. Приведу такой пример. У меня есть друг, который работает в сфере социальных наук. Он занимается историческими исследованиями. Как-то ему нужно было изучить археологические раскопки. Он должен был просмотреть тысячи статей и в итоге попросил своих несчастных аспирантов прочитать их за него. То есть он мог бы заменить аспирантов… И позволить им заняться чем-то более интересным.

Он мог бы [вместо них] использовать автоматические системы, построенные на искусственном интеллекте, чтобы вникнуть в суть текстов и вычленить из них информацию, которая была ему необходима. И по-прежнему он будет влиять на науку, это он будет делать гипотезы, это он будет привносить в рабочий процесс дух креативности и новые идеи. Я не говорю, что ИИ не может быть креативным в некоторой степени. Но в большинстве случаев он не станет заменой людям, которые работают в сферах, требующих квалификации. Этого не стоит ожидать хотя бы в ближайшее время.

Автор фото, Пресс-служба Яндекса

Подпись к фото,

Этим летом Дэвид Талбот возглавил «Яндекс. Переводчик»

Би-би-си: А будут ли IT-компании нуждаться в гуманитариях в будущем?

Д.Т.: В нашей области, а мы работаем над переводом и обработкой естественного языка, действительно есть нужда в лингвистах. Нам правда важно их умение понимать языки. Компьютеры очень хорошо определяют принципы [устройства языка], но увидеть расклад возможностей… Другими словами, если мы запускаем эксперимент и у нас нет определенных границ, которыми мы могли бы руководствоваться, даже пускай они были бы очень примитивными (а эти границы идут именно из области лингвистики), если у нас нет этих границ, то мы просто потеряемся в нашем исследовании. И поэтому в области машинного перевода, обработке естественного языка, лингвисты действительно нужны.

Однако, я думаю, мы увидим это [взаимодействие] скорее в обратном направлении: увидим, как ученые-гуманитарии используют ИИ. У меня есть друг, который, кажется, профессор философии в Англии, он изучал историю идей. Он взял где-то с десяток разных концепций и хотел проследить их развитие во времени. Он сделал простой анализ на основе искусственного интеллекта и корпусной лингвистики.

То есть он проанализировал то, как определенные слова использовались в разное время. И увидел, как менялось их значение, насколько разные точки зрения об одной и той же концепции были в текстах разных эпох. Он никогда бы не провел это исследование без даже простейшего ИИ.

Мы лишь в начале пути! В таких компаниях, как «Яндекс» или Google, люди много работают над передовыми нюансами ИИ, учат его выполнять очень узкие задачи: например, [осуществлять] машинный перевод, поиск, исправление опечаток. Но все эти «навыки» ИИ в итоге будут использоваться в совершенно разных областях. То есть, возможно, студенты… Я не знаю, как давно вы учились в университете. Вы писали свои доклады от руки или на компьютере?

Би-би-си: На компьютере.

Д. Т.: Ага, на компьютере. А когда я учился, их писали от руки. Видите, кое-что уже изменилось. Возможно, последующие поколения будут писать как-то совершенно по-другому. Вы, может быть, видели в «Яндекс.Переводчике», что пока вы набираете слово, он предлагает вам продолжение фразы. То есть если вы напишете «how», он может предложить «are» и далее — «you» [«How are you?» — в переводе с англ. «Как вы поживаете?»]

И вам в итоге даже не нужно ничего писать. Вот такая функция — не в ее нынешней форме, а в будущем — могла бы сослужить хорошую службу гуманитариям, помочь им строить свои тексты. Это не конфликт.

Би-би-си: То есть вы считаете, что гуманитарии и технари будут нуждаться друг в друге?

Д.Т.: Да, я думаю, это будет работать в обе стороны.

Би-би-си: А что же будет с переводчиками-синхронистами? Станут ли сервисы вроде «Яндекс. Переводчика« им заменой?

Д.Т.: Если честно, я на это надеюсь. Потому что синхронный перевод — это очень нервная работа. Посмотрите на синхронистов высшего уровня, тех, кто работает в ООН, — они не переводят дольше двадцати минут подряд. Но всегда существует вероятность того, что ситуация потребует от человека дополнительных навыков, которые делают его незаменимым.

Например, можно легко представить ситуацию, когда переводчик на деловой встрече не просто переводит речь, а помогает преодолевать культурный барьер. То есть понимает и может предложить что-то обеим сторонам, понимает разницу между манерой их общения и культурой. И вот это, конечно, никуда не уйдет. Но, возможно, самая стрессовая и требующая максимальной аккуратности часть этой работы просто перейдет в руки компьютерам.

Автор фото, Getty Images

Подпись к фото,

Переводчики помогают преодолевать не только языковой барьер, но и культурный

Би-би-си: Не получится ли так в будущем, что технологии с использованием нейросетей станут доступными даже для небольших сайтов и они будут справляться с переводом своими силами, а в «Яндекс. Переводчике« не будет нужды?

Д.Т.: Прямо сейчас в мире около пяти, я бы сказал, компаний, которые развили серьезную мощность в машинном переводе. Это Google, Facebook, Baidu, Yandex… Пятая вылетела из головы, но тем не менее. Мы сейчас проходим через период значительных изменений в машинном переводе. Я работал над ним в Google, а изначально занимался этим еще в аспирантуре в 2003 году или даже раньше. В Google, где я работал пять лет, проект был очень вдохновляющим, особенно в тот момент, когда я к нему присоединился в 2007-2008 годах.

Но постепенно он стал входить в плато: качество перестало расти, и это очень расстраивало. Стало очень сложно делать какие-то принципиально новые вещи. То есть мы проводили эксперименты, но они давали только совсем небольшое улучшение, и это было не то, что стоило бы внедрять в производство. Это, кстати, была одна из причин, по которой я покинул проект.

  • Искусственный интеллект — угроза или помощник для человечества?
  • Может ли искусственный интеллект защитить нас от хакеров?

Оказалось, что примерно в то же время, но в другом месте люди работали над совершенно иным подходом к машинному переводу — так называемым нейронным переводом. И это был прорыв. У него был ошеломительный эффект. Кардинально новое качество. И это давало огромную мотивацию там работать. Нейронный перевод гораздо свободнее «чувствует» язык. Он анализирует целое предложение или даже, потенциально, большие отрывки. Таким образом, мы можем успешнее согласовывать слова между собой. Особенно это важно в русском языке, в котором столько правил морфологии, я сам в них постоянно путаюсь. Я не говорю, что такой перевод совершенен, но нейронные сети делают его в целом значительно качественнее.

И с одной стороны, нейросети демократизировали область перевода. Ведь сейчас небольшой команде — в университете или стартапе — гораздо проще создать довольно хорошую систему. Но у больших компаний — таких, как «Яндекс» — все равно остаются преимущества. И я думаю, что именно поэтому мы здесь пока не очень нервничаем, хотя и продолжаем фокусироваться на качестве.

Небольшая команда действительно может построить хорошую систему, на уровне тех, что делал «Яндекс» несколькими годами ранее, легко и с минимальными затратами. И если бы наша компания не развивалась с того времени, то нам пришлось бы трудно.

Вот сейчас мы внедряем нейронный перевод. Мы на самом деле презентуем инновационный подход: нейронный перевод более гладкий, он больше заточен на грамматику, и он рассматривает контекст. Есть и другой подход, статистический, его называют фразовым машинным переводом. В этом случае предложения разбиваются на куски. И тут недостаток в том, что, бывает, эти куски друг с другом не сходятся. Но обычно они сами по себе очень хорошо переведены. Это как огромный словарь, в котором не просто слова, а целые фразы.

Мы заметили очень хороший результат у гибридного подхода: когда мы используем технологию, разработанную в «Яндексе», CatBoost. Это классификатор машинного обучения, который просто выбирает то, каким методом лучше в данный момент перевести текст — нейронным или фразовым.

Автор фото, FABRICE COFFRINI/AFP/Getty Images

Подпись к фото,

С каждым годом машины все лучше понимают естественные языки общения людей

Би-би-си: Учитывая то, как сейчас быстро развивается разговорный язык, во многом благодаря интернету, хочется задать вопрос: как программы-переводчики справляются с наплывом новых слов?

Д. Т.: Это хороший вопрос. И это то, с чем «Яндексу», как поисковику, уже приходилось сталкиваться. Самая главная здесь проблема в том, что, когда возникает новое слово, имя или название продукта, новое сленговое словечко, и люди ищут его в «Яндексе», а мы его не знаем, то мы рассматриваем его как опечатку. И делаем нечто ужасное — мы пытаемся его исправить! Но пользователь-то знает, что он прав. И поэтому в «Яндексе» у нас есть такой механизм — он называется «свежий подход» — и им, кстати, занимается как раз наша команда: разработчики сервиса машинного перевода и служба исправления опечаток.

Например, есть запрос, которого мы раньше не встречали, который при этом часто используется в потоке запросов. Мы включаем его в нашу модель, мы можем вычислить его и уже не станем исправлять. Так происходит в системе нейронного перевода. Мы замечаем слова, которые не имеют логичного перевода или вообще никак не переводятся. Особенно отмечаем те, которые не занесены в словари.

  • Детские роботы с искусственным интеллектом: друзья или враги?
  • Эксперт отвечает Илону Маску: искусственный интеллект не угроза
  • Боты изобрели свой язык: почему Facebook испугался искусственного интеллекта?

Хотя мы и используем фидбек от наших пользователей, чтобы улучшить перевод, мы также и обращаемся к нашим лингвистам, которые проверяют определенные статьи. Мы также можем, вполне естественным образом сканируя информацию в интернете и изучая данные, с большой вероятностью понять, что незнакомые слова значат.

И это одна из тех причин, почему кажется, что нейронный и статистический переводы превосходят тот, что основывается на правилах языка. Потому что в случае перевода, который основывается на правилах, нужно было бы постоянно вручную добавлять новые слова.

Би-би-си: Расскажите о своем переходе в «Яндекс«. Вы пришли сюда прямиком из Google?

Д.Т.: В мои планы совсем не входило предавать Google и уходить в «Яндекс», что вы! Я уже давно был связан с «Яндексом» — через Школу анализа данных (ШАД). Это замечательная программа, на которую отбираются самые талантливые студенты факультетов информатики и математики в московских вузах и других городах.

В ее рамках проходят такие курсы, которые не всегда доступны даже в самых лучших вузах страны: машинное обучение, обработка естественного языка, машинный перевод. Я работал в московском офисе Google почти два года, в 2013-2014 годах, и примерно в это время попал в ШАД, где встретился с потрясающими студентами. Стандартный математический базис, который вы получаете в старшей школе и на первых курсах университета, просто выдающийся.

Би-би-си: В России, вы имеете в виду?

Д.Т.: Да, в России. Я был крайне впечатлен. И мне было очень приятно стать частью этого проекта. Потом я вернулся в Лондон, инженеры московского офиса Google должны были вернуться(Google закрыла свой инженерный отдел в России в 2014 году — Би-би-си). В итоге мы оказались в Лондоне, но я все равно возвращался в Москву по нескольку раз за год, чтобы преподавать в ШАДе. А после ухода из Google я вообще собирался основать стартап.

Таков был мой план. Однажды я в очередной раз приехал в Москву, чтобы провести курс. И как-то разговаривал с Мишей Биленко, который незадолго до этого возглавил в «Яндексе» управление машинного интеллекта и исследований. Он меня заразил, увлекательно рассказывая про все это. Благодаря ШАДу я имел представление о том, какая сильная команда инженеров-разработчиков в «Яндексе». Ну, и я пришел. И это восторг. Я в «Яндексе» уже около трех месяцев.

Автор фото, NATALIA KOLESNIKOVA/AFP/Getty Images

Подпись к фото,

Яндекс внедряет нейросетевые технологии в свой переводчик вслед за Google и Facebook

Би-би-си: Вы ощущаете какую-то разницу в работе компаний?

Д.Т.: Есть пара моментов. «Яндекс», как и Google, обладает эдаким инженерным мышлением. То есть решения принимаются, основываясь на данных, а не на чьих-то субъективных решениях. Действия должны быть чем-то оправданы. И это очень демократично. Люди должны все подкреплять фактами. То же самое вы увидите и в Google. Большое отличие же в том, что «Яндекс» сильно меньше. И у каждого отдельного разработчика здесь огромное количество ответственности. А в Google у меня иногда возникало ощущение, что там большое количество людей делают одно и то же. У вас есть множество инженеров и очень интересная задача — и они как бы делят этот пирог между собой.

В «Яндексе», я думаю, такой проблемы нет. Здесь каждый сотрудник занят чем-то увлекательным. И мне это очень нравится. А учитывая, что это российская компания… Ну, понятно, что все говорят на русском [смеется]. И мой русский тоже стал лучше! Я изучал его много лет назад и не использовал лет 15. Я надеялся, что теперь мне удастся восстановить эти знания, и они действительно ко мне возвращаются. Я, конечно, вам свои успехи демонстрировать не буду [смеется].

Что еще? Ну, конечно, есть какие-то административные моменты. Нужно подписывать гораздо больше бумаг, например. Но это не выбор «Яндекса» [смеется]. Вот это ощущается, да.

Би-би-си: Насчет вашего перехода в «Яндекс»: со стороны может показаться подозрительной история, когда Google внедряет технологии с использованием нейросетей в свой переводчик, а потом один из разработчиков Google Translate приходит в «Яндекс», после чего уже и «Яндекс» объявляет, что тоже начинает использовать нейросетевые алгоритмы в сервисе перевода…

Д. Т.: Ой, что вы, нет-нет-нет! Начнем с того, что мы не используем ничего подобного тому, что использует Google. Я не знаю, что они на самом деле там у себя сделали, но по результатам они опубликовали статью, в которой описали свою технологию. Я им доверяю, я знаю этих людей.

Мы тоже экспериментировали с подобной архитектурой сети, получили хорошие результаты в некоторых языках, но мы хотели сфокусироваться пока именно на переводе с английского на русский. И для этой пары языков мы вдруг нашли совсем другую архитектуру, организация нейронов в ней совершенно другая. Вообще, что меня действительно радует в мире технологий глубокого обучения, нейронных сетей и машинного перевода, так это то, что большинство людей открыто публикуют свои разработки в этой сфере.

Конечно, нет открытого источника, из которого можно было бы узнать, как именно Google внедрял нейросети, но есть множество инструментов, открытых и доступных, и некоторые из них разработаны как раз людьми из Google. И с ними можно свободно экспериментировать. Это, вероятно, новая такая — терпеть это слово не могу — парадигма!

Люди уже заметили, что обнародование разработок несет лишь преимущества. И это развивает всё сообщество: ведь, чем больше людей экспериментирует с вашей технологией, тем больше они найдут в ней ошибок или изобретут для нее обновления. Так что, я помогал «Яндексу» в последние месяцы, но я не могу заявлять, что… В общем, они еще до меня уже много чего сделали для создания такой гибридной модели. Они уже над этим давно работали.

Би-би-си: «Яндекс» заявляет, что теперь качество его перевода — лучшее в мире

Д.Т.: В данный момент мы оцениваем его с помощью стандартной внутренней метрики, автоматизированной. И согласно ей, мы действительно лучше наших конкурентов. Но это только в переводе с английского на русский, и это пока только начало. У русского языка настолько сложная конструкция, что нейросети могут значительно повысить эффективность его перевода.

Автор фото, Getty Images

Подпись к фото,

Искусственный интеллект также может разнообразить процесс изучения языков, считает Талбот

Би-би-си: А нужно ли вообще будет учить языки в мире, где есть совершенные онлайн-переводчики?

Д.Т.: Понимаете, довольно большая часть наших пользователей — это школьники, которые учат языки. Возможно, есть разница между тем, сколько они нас используют для изучения языка, и тем, сколько они используют наш сервис, выполняя домашнее задание. Они, таким образом, вовлекаются, и я думаю, что в итоге это оказывает на них позитивное влияние. Учить язык — это далеко не только заучивать слова и уметь переводить тексты. Учить язык — это про то, что ты начинаешь понимать некоторые идеи, которые в твоем языке не отражены, но отражены в чужом. Ты также начинаешь вникать в иную культуру.

Я думаю, что мы конечно достигнем того уровня, когда будем сидеть рядом, говорить на разных языках и параллельно переводить речь через сервис перевода. Но я думаю, что даже в таком случае люди будут продолжать учить языки. Ведь так много людей в мире это делает, это очень популярно. Даже когда на то нет явной причины. Просто это увлекательно и развивает мозги. Поводов может быть море и помимо расширения границ общения.

Би-би-си: Вы упомянули синхронный перевод. В онлайнпереводчиках сейчас есть функции распознавания текста на загруженном изображении, то есть перевод текста с картинок. Получается, однажды мы сможем сделать что-то типа перевода в дополненной реальности: например, сможем наводить на уличные вывески камеру смартфона и «в прямом эфире« видеть их перевод. Вы не планируете ничего подобного в «Яндексе«?

Д. Т.: О, конечно, это очевидный вариант развития событий. Просто это такая функция, которая требует некоторого улучшения существующих технологий. Сейчас можно снять фотографию, потом можно будет снять видео. Это лишь вопрос времени и качества видеопотока, а последнее — довольно сложная задача в вычислительном отношении. Сейчас, возможно, сложно себе это представить, но это проблема, которую мы сможем решить, просто, очень-очень медленно. Я даже не знаю… Может быть, года через два? Обычно, очень сложно предугадать такие вещи, но выглядит так, будто это вполне в наших силах.

И у нас, кстати, уже кое-что есть по теме дополненной реальности. Так как мы хотим, чтобы все больше людей стремилось использовать «Яндекс.Переводчик» для изучения языков, мы думали, может быть, сделать что-то в духе дополненной реальности, где… Ну, вы, наверное, знаете, это традиционное упражнение, когда вы учите новый язык, вы прилепляете стикеры на окружающие вас предметы — на стулья, столы и тому подобное. А что, если вы просто будете направлять камеру своего телефона на предметы, а он будет вам показывать, что это? И мы на это способны — мы умеем распознавать изображения и можем переводить названия на них. Да, это немного сложно сейчас, с точки зрения вычислительных мощностей, но это абсолютно реально.

Би-би-си: Хотите ли вы, возглавляя «Яндекс.Переводчик«, вывести его на международный уровень, сделать конкурентом тому же Google Translator вне России?

Д.Т.: Пока не очень понятно, но что мы с уверенностью можем утверждать — это то, что мы больше всего сейчас сфокусированы на том, чтобы улучшать наш сервис для пользователей «Яндекса». А они в большинстве своем русскоговорящие. Это для нас первоочередная цель. С другой стороны, у нас уже есть API, с помощью которого компьютер может соединяться с нашим сервисом напрямую, не через веб-интерфейс. И пользователей API (набор функций, доступных для использования другими разработчиками — Би-би-си) за пределами России у нас достаточно. Цена разумная, и они видят, что качество на высоком уровне. Таких клиентов у нас полно из абсолютно разных областей: даже, например, из сферы медиа, где необходимо обрабатывать огромное количество информации на разных языках.

Автор фото, SEBASTIEN BOZON/AFP/Getty Images

Подпись к фото,

Совершенствование технологий обработки естественного языка поможет расширить границы нашего общения, считает Талбот

Би-би-си: А каким вы видите следующий шаг? Какие у «Яндекс.Переводчика« сейчас главные приоритеты?

Д.Т.: Мы просто обязаны сделать так, чтобы процесс перевода стал совершенно незаметным и гораздо более простым.

Би-би-си: А разве им сейчас сложно пользоваться?

Д.Т.: Им сложно пользоваться в том смысле, что вам надо пойти и начать им пользоваться. Перевод должен происходить просто и автоматически. Когда вы читаете что-то в интернете, это должно автоматически переводиться. Хочется, конечно, чтобы перевод стал супербыстрым. Люди не переводят для того, чтобы перевести слова. Они переводят потому, что хотят с кем-то общаться, стремятся что-то понять.

И мы должны сделать так, чтобы у них была эта возможность. Перевод должен происходить по дефолту. Тогда коммуникация станет абсолютно безграничной, а нам не нужно будет думать об использовании какого-то приложения.

11 лучших инструментов машинного перевода (AI) для использования в 2022 году Более того, ожидается, что к 2022 году он достигнет $980 млн.

Да, мир меняется во всех уголках, и индустрия переводов не исключение. При этом десятки переводчиков следят за последними тенденциями машинно-ориентированного перевода и интегрируют инструменты ИИ в свою повседневную работу.

И не поймите нас неправильно, мы не утверждаем, что мир находится на грани уничтожения людей-писателей. Но любите вы это или ненавидите, ИИ никуда не денется, и каждый должен попытаться извлечь из него пользу. Поскольку машина быстро выполняет перевод текста, вы можете ускорить создание контента и публиковать его чаще.

Поэтому мы решили порекомендовать некоторые из самых популярных инструментов перевода.

Содержание

  1. Введение
  2. Что такое машинный перевод?
  3. Что такое инструмент перевода AI?
    • Что такое нейронный машинный перевод?
  4. Какие бесплатные инструменты машинного перевода лучше всего использовать в 2022 году?
    • 1. Google Translate
    • 2. Bing Microsoft Translator
    • 3. DeepL
    • 4. Reverso Translation
  5. Какие платные инструменты и услуги машинного перевода лучше всего использовать в 2022 году?
    • 1. Переводчик memoQ PRO
    • 2. Systran Translate PRO
    • 3. Smartling
    • 4. Crowdin
    • 5. TextUnited
    • 6. Amazon Translate
    • 7. Memsource
  6. Conclusion
  7. Get in Touch with Us

What is Машинный перевод?

Машинный перевод или МП — это автоматизированное преобразование одного языка в другой. Программное обеспечение для машинного перевода преобразует текст с исходного языка и создает эквивалентный отрывок на целевом языке. Качество машинного перевода бывает разным, поскольку одни программы производят более точные переводы, чем другие.

Что такое инструмент перевода ИИ?

Машинный перевод или МП — это автоматизированное преобразование одного языка в другой. Программное обеспечение для машинного перевода преобразует текст с исходного языка и создает эквивалентный отрывок на целевом языке. Качество машинного перевода бывает разным, так как одни программы генерируют более точные переводы, чем другие.

Что такое нейронный машинный перевод?

Нейронный машинный перевод (NMT) относится к соединению службы машинного перевода с искусственной нейронной сетью для обеспечения лучших результатов, чем стандартные переводы.

Инструменты NMT обладают большим потенциалом и были разработаны такими компаниями, как Google Translate и DeepL.

Нейронный машинный перевод устранил некоторые недостатки предыдущих методов машинного перевода, такие как плохая читаемость и несовместимость с некоторыми языками.

Услуги по переводу, как правило, сочетают нейронные машинные переводы с человеческим прикосновением, чтобы гарантировать, что переведенный продукт адаптирован к целевому местоположению. Содержание включает в себя подходящие выражения и социальные ссылки местного рынка.

  • Культура
  • Выражения
  • Ссылки

Какие бесплатные инструменты машинного перевода лучше всего использовать в 2022 году?

1. Google Translate

Google Translate — это бесплатный онлайн-инструмент для машинного перевода, который помогает вам переводить текст, документы и веб-сайты с одного языка на другой.

Бесплатный и очень доступный инструмент с простым и интуитивно понятным дизайном. Просто введите текст или загрузите документ и нажмите кнопку перевода.

Google Translate предлагает перевод различных типов контента на 109 языков. Кроме того, с помощью этого приложения вы можете переводить неподвижные или движущиеся изображения и рукописные тексты.

Стоит отметить, что дополнительное знание языка или использование других инструментов перевода может избавить вас от ошибок перевода.

Функции

  • Интеграция приложений
  • Многоязычный перевод
  • Виджет перевода веб-сайтов
  • Режим разговора на мобильном телефоне. Во время разговора с двумя или более людьми Google Translate автоматически слушает и переводит текст.
  • Автономный перевод на мобильных устройствах

2. Bing Microsoft Translator

Bing Microsoft Translator — это облачная служба машинного перевода, разработанная Microsoft. Инструмент является частью Microsoft Cognitive Services, интегрированной в Bing, Microsoft Office, SharePoint, Microsoft Edge, Skype, Visual Studio и т. д.

Bing Microsoft Translator предлагает компаниям перевод текста и речи через облачные сервисы. В настоящее время Microsoft Translator поддерживает 105 языков и 12 систем перевода речи, которые поддерживают функцию живого разговора Microsoft Translator.

Кроме того, Microsoft Translator позволяет вам переводить изображения, голос, параметры и ссылки, которые приносят пользу и обеспечивают удобство для пользователя.

Особенности

  • Перевод речи
  • Перевод памяти
  • Перевод текста, речи в реальном времени и изображения
  • Управление проектами
  • Редактирование в контексте
  • Integration
  • Веб-перевод Widget
  • 3. DeepL

    DeepL — впечатляющее программное обеспечение для машинного перевода, которое становится популярным инструментом как для бизнеса, так и для частных лиц. DeepL имеет хорошую репутацию благодаря своим точным и детальным переводам.

    Клиенты ценят интуитивно понятный интерфейс Deep L и бесшовную интеграцию с Windows/iOS.

    DeepL зарекомендовала себя как производитель высококачественных машинных переводов. Тем не менее, иногда он также может давать неточные результаты. Таким образом, лучше пересмотреть окончательный вывод перед публикацией копии.

    Это первоклассный поставщик услуг машинного перевода, предлагающий высококачественные переводы, но не предоставляющий возможности индивидуальной настройки.

    Но, Deepl только предлагает перевод на 26 языков, в то время как другие конкуренты обрабатывают до 100.

    Особенности

    • Перевод документа
    • Интеграция приложений
    • Веб -перевод типа
    • . Reverso — это бесплатное программное обеспечение для перевода с искусственным интеллектом, которое поддерживает переводы на 18 языков. В Reverso вам нужно только набирать текст или произносить слова, чтобы получить желаемый перевод.

      Помимо переводов, Reverso помогает пользователям улучшать свои языковые навыки и расширять словарный запас. Переведенные тексты сопровождаются соответствующими примерами и пояснениями, чтобы помочь пользователям в дальнейшем овладеть навыками письма, разговорной речи и чтения.

      Функции

      • Перевод документов
      • Использование контекстных примеров
      • Руководство по произношению
      • Карточки
      • История поиска
      • Словарь

          002 Какие платные инструменты/услуги машинного перевода лучше всего использовать в 2022 году?

          1.

          memoQ Translator PRO

          Memoq — это программа для перевода, разработанная опытной группой переводчиков. Memoq предлагает продуманные и интуитивно понятные функции, помогающие в решении задач обработки информации.

          memoQ — один из самых популярных программных продуктов для перевода на рынке. Его легко освоить и использовать даже для новичков, и он предлагает все функции, на которые вы когда-либо могли надеяться, а также несколько интересных элементов, которые вам могут не понадобиться, но которые могут вам понравиться.

          Переводчик MemoQ pro предлагает новые захватывающие возможности. Тот, который облегчит вашу работу и даст вам больше времени, чтобы сосредоточиться на самом важном – качественных переводах!

          Особенности

          • Память переводов — memoQ хранит каждое переведенное предложение в памяти переводов, поэтому вам не нужно ничего переводить дважды
          • База терминов — одним щелчком мыши вы можете импортировать таблицы или внешнюю терминологическую базу
          • Управление рабочим процессом
          • Управление качеством
          • Сотрудничество
          • Локализация
          • Многоязычная поддержка

          Цена — 620 евро (+НДС, если применимо)

          Программное обеспечение для временного перевода, которое позволяет компаниям легко сотрудничать и общаться с клиентами и членами команды.

          Таким образом, вы сможете управлять созданием контента по различным каналам. Компания Systran имеет более чем 40-летний опыт работы в сфере переводов, а ее решениям доверяют некоторые из крупнейших компаний мира — Google, Yahoo, Nasa и др.

          Systran Translation — это компьютерная программа, помогающая пользователям переводить документы, тексты, изображения, веб-страницы и электронные письма с одного языка на другой. Пользовательский интерфейс настолько интуитивно понятен, что его можно использовать в любое время и в любом месте. Кроме того, это программное обеспечение переводит целые файлы или папки всего за несколько кликов.

          Нужен ли вам перевод веб-сайта или документов для международных деловых переговоров, Systran — отличный выбор для ваших нужд.

          Особенности

          • Dictionary Manager
          • Языковой менеджер
          • Интерактивные переводчики
          • Инструменты совместной работы
          • Автоматизация локализации
          • Расширения браузера

          Прай для документов, ресурсов веб-сайта и локализации приложений. Он поддерживает интеграцию с программным обеспечением и инструментами, которые вы, возможно, уже используете, включая Adobe Illustrator, Adobe Photoshop, Sketch и Figma. У Smartling крутая кривая обучения, но пользователям нравится гибкость настройки рабочих процессов перевода на основе других платформ. Smartling получил положительные отзывы от пользователей, которые высоко оценили его способность интегрировать перевод на основе ИИ в свой рабочий процесс.

          Smartling позволяет компаниям переводить свои веб-сайты и обновлять контент на разных языках.

          Особенности

          • Делегирование задач
          • Комментарии и упоминания
          • Глоссарий
          • Интеграции инструментов
          • Убедитесь качества

          Цена — Начало с 2009000

          4. КРОЛИН

          9004 КРУПОР. и отдельные лица переводят различные типы контента на другие языки. Он предлагает множество инструментов и вариантов просмотра, чтобы максимально упростить процесс перевода.

          Crowdin — это программа для перевода, которая не специализируется ни на одной области машинного перевода. Он предлагает управление функциональными задачами, обработку платежей и совместные задачи для каждого члена команды. Таким образом, Crowdin позволяет более точно прогнозировать выполнение проекта и улучшать взаимодействие между членами команды.

          Функции

          • Делегирование задач
          • Глоссарий
          • Встроенная память переводов
          • Пользовательская память переводов
          • Управление переводами

          Цена — от 40 долларов США

          5. TextUnited

          TextUnited — это инструмент управления переводами, позволяющий переводчикам, менеджерам и корректорам легко работать вместе. TextUnited предоставляет пользователям обзор уже переведенного текста в режиме реального времени, чтобы они могли отслеживать прогресс и обеспечивать контроль качества.

          TextUnited — это простая в использовании платформа машинного перевода с простым пользовательским интерфейсом. Платформа содержит все функции для выполнения таких задач, как перевод текста с одного языка на другой, перевод длинных документов и целых веб-сайтов.

          Особенности

          • Управление заданиями
          • Инструменты совместной работы
          • Управление заказами
          • База данных переводчиков
          • Управление терминологией

          ЦЕНА- Начало с € 60

          6. ​​Amazon Translade 9009

          Управление. модель глубокого обучения для предоставления высококачественных переводов за считанные секунды.

          С помощью этого инструмента вы можете локализовать контент для различных платформ, таких как приложения, блоги, веб-сайты и т. д. Кроме того, вы также можете переводить различные форматы контента: документы Word, электронные таблицы Excel и презентации Powerpoint.

          Кроме того, Amazon translate поддерживает автоматический перевод для электронной почты, чатов, службы поддержки и приложений для продажи билетов, чтобы обеспечить межъязыковое общение.

          Особенности

          • Переводы партии и в реальном времени
          • Автоматическая идентификация языка
          • Широкий языковой охват
          • Поддержка различных форматов контента
          • Интеграции приложения
          • Сторонние терминологии

          Прайс-цена. 0068 7. Memsource

          Memsource — это система управления переводами, которая помогает вам управлять переводами ваших документов, ресурсов веб-сайта и переводчиками. Он прост в использовании и требует небольшой подготовки. Вы можете подключить его к своей системе управления контентом, чтобы максимально автоматизировать рабочий процесс. Memsource также предлагает мобильное приложение, которое вы можете использовать на своем телефоне или планшете.

          Memsource предлагает круглосуточную техническую поддержку, услуги перевода для ряда приложений и две учетные записи с лингвистическими ресурсами. Первая учетная запись начинается с 27 долларов в месяц и включает 50 000 символов, переведенных в месяц. Memsource Translate — это система перевода компании на базе искусственного интеллекта, которая может переводить тексты длиной до 500 слов за три минуты или меньше.

          Интерфейс понятен и прост в навигации, что делает его идеальным для тех, кто не разбирается в технологиях.

          Memsource — это система управления переводами, которая делает развертывание простым и доступным. Компании могут использовать инструменты ИИ, чтобы снизить стоимость переводов без ущерба для качества. Memsource также интегрируется с другими программными платформами, что делает его идеальным выбором для компаний, использующих машинный перевод как часть своей общей стратегии перевода.

          Особенности

          • Делегирование задач
          • Глоссарий
          • Обеспечение качества
          • Пользовательский перевод память
          • Совместный перевод
          • Управление клиентами

          Цена- запуска с 27

          Заключение

          Да, это правда, что это не так. свободно. Ошибки перевода все еще случаются. Иногда неспособность инструментов понять языковой контекст выливается в серию шутливых постов в социальных сетях.

          Но все, что вам нужно сделать, это отредактировать результат перевода ИИ и адаптировать текст к вашему целевому восприятию рынка. Таким образом, вы сэкономите много времени на технических вещах и лучше ориентируетесь на то, чтобы сделать текст человеческим.

          Свяжитесь с нами

          Чтобы искусственный интеллект стал успешной частью маркетинговой стратегии, должно быть эффективное и рентабельное сотрудничество между машинным переводом и лингвистами.

          В greatcontent есть большой пул многоязычных пост-редакторов, умеющих работать с CAT-инструментами.

          Мы развиваем их навыки, предлагая регулярные обучающие обучения навыкам транскреации и постредактирования. Если вы считаете, что greatcontent хорошо подходит для вашей маркетинговой стратегии.

          Свяжитесь с нами сейчас.

          Представляем первую модель ИИ, которая переводит на 100 языков без опоры на английский

          • Facebook AI представляет M2M-100, первую модель многоязычного машинного перевода (MMT), которая может переводить между любой парой 100 языков, не полагаясь на данные на английском языке. Это с открытым исходным кодом здесь.
          • При переводе, скажем, с китайского на французский, большинство англо-ориентированных многоязычных моделей тренируются с китайского на английский и с английского на французский, поскольку данные для обучения на английском языке являются наиболее доступными. Наша модель напрямую обучает данные с китайского на французский, чтобы лучше сохранить смысл. Он превосходит англо-ориентированные системы на 10 баллов по широко используемой метрике BLEU для оценки машинных переводов.
          • M2M-100 обучен в общей сложности 2200 языковым направлениям — или в 10 раз больше, чем предыдущие лучшие многоязычные модели, ориентированные на английский язык. Развертывание M2M-100 улучшит качество переводов для миллиардов людей, особенно для тех, кто говорит на малоресурсных языках.
          • Эта веха является кульминацией многолетней фундаментальной работы искусственного интеллекта Facebook в области машинного перевода. Сегодня мы делимся подробностями о том, как мы создали более разнообразный набор данных для обучения MMT и модель для 100 языков. Мы также выпускаем модель, систему обучения и оценки, чтобы помочь другим исследователям воспроизвести и усовершенствовать многоязычные модели.

          Преодоление языковых барьеров с помощью машинного перевода (MT) — один из наиболее важных способов объединить людей, предоставить достоверную информацию о COVID-19 и защитить их от вредоносного контента. Сегодня мы ежедневно выполняем в среднем 20 миллиардов переводов в ленте новостей Facebook благодаря нашим последним разработкам в области машинного перевода с низким уровнем ресурсов и недавним достижениям в области оценки качества перевода.

          Типичные системы машинного перевода требуют создания отдельных моделей ИИ для каждого языка и каждой задачи, но этот подход неэффективно масштабируется на Facebook, где люди размещают контент на более чем 160 языках в миллиардах сообщений. Усовершенствованные многоязычные системы могут обрабатывать несколько языков одновременно, но снижают точность, полагаясь на данные на английском языке для преодоления разрыва между исходным и целевым языками. Нам нужна одна модель многоязычного машинного перевода (MMT), которая может переводить любой язык, чтобы лучше обслуживать наше сообщество, почти две трети которого используют язык, отличный от английского.

          В результате многолетних исследований машинного перевода в Facebook мы рады объявить об важной вехе: первой единой массовой модели MMT, которая может напрямую переводить 100 × 100 языков в любом направлении, не полагаясь только на англо-ориентированные данные. Наша единая многоязычная модель работает так же хорошо, как и традиционные двуязычные модели, и добилась улучшения на 10 баллов по шкале BLEU по сравнению с англоязычными многоязычными моделями.

          Используя новые стратегии интеллектуального анализа данных для создания данных перевода, мы создали первый набор данных «многие ко многим» с 7,5 миллиардами предложений для 100 языков. Мы использовали несколько методов масштабирования, чтобы построить универсальную модель с 15 миллиардами параметров, которая собирает информацию из родственных языков и отражает более разнообразный сценарий языков и морфологию. Мы открываем исходный код этой работы здесь.

          Извлечение сотен миллионов предложений для тысяч языковых направлений

          Одним из самых больших препятствий при построении модели MMT «многие ко многим» является курирование больших объемов качественных пар предложений (также известных как параллельные предложения) для произвольных направлений перевода, а не с участием английского языка. Гораздо проще найти переводы с китайского на английский и с английского на французский, чем, скажем, с французского на китайский. Более того, объем данных, необходимых для обучения, растет квадратично с количеством поддерживаемых языков. Например, если нам нужно 10 миллионов пар предложений для каждого направления, нам нужно добыть 1 миллиард пар предложений для 10 языков и 100 миллиардов пар предложений для 100 языков.

          Мы взяли на себя эту амбициозную задачу по созданию самого разнообразного набора данных MMT «многие ко многим» на сегодняшний день: 7,5 миллиардов пар предложений на 100 языках. Это стало возможным благодаря объединению дополнительных ресурсов интеллектуального анализа данных, которые разрабатывались годами, включая ccAligned, ccMatrix и LASER. В рамках этих усилий мы создали новый LASER 2.0 и улучшили идентификацию языка fastText, что повышает качество майнинга и включает сценарии обучения и оценки с открытым исходным кодом. Все наши ресурсы интеллектуального анализа данных используют общедоступные данные и имеют открытый исходный код.

          Новая многоязычная модель Facebook AI «многие ко многим» является кульминацией нескольких лет новаторской работы в области машинного перевода с использованием революционных моделей, ресурсов интеллектуального анализа данных и методов оптимизации. На этой временной шкале отмечены несколько заслуживающих внимания достижений. Кроме того, мы создали наш массивный набор обучающих данных путем майнинга ccNET, который основан на fastText , нашей новаторской работе по обработке представлений слов; наша библиотека LASER для CCMatrix, которая встраивает предложения в многоязычное пространство для встраивания; и CCAligned, наш метод выравнивания документов на основе совпадений URL-адресов. В рамках этих усилий мы создали LASER 2.0, который улучшает предыдущие результаты.

          Тем не менее, даже с передовыми базовыми технологиями, такими как LASER 2.0, сбор крупномасштабных обучающих данных для произвольных пар 100 различных языков (или 4450 возможных языковых пар) требует больших вычислительных ресурсов. Чтобы сделать этот тип масштабирования майнинга более управляемым, мы сначала сосредоточились на языках с наибольшим количеством запросов на перевод. Следовательно, мы отдали предпочтение направлениям майнинга с данными самого высокого качества и наибольшим количеством данных. Мы избегали направлений, для которых потребность в переводе статистически редка, таких как исландский-непальский или сингальский-яванский.

          Затем мы представили новую стратегию поиска мостов, в которой мы группируем языки в 14 языковых групп на основе лингвистической классификации, географии и культурных сходств. Люди, живущие в странах с языками одной семьи, как правило, общаются чаще, и им нужны качественные переводы. Например, одна группа будет включать языки, на которых говорят в Индии, такие как бенгальский, хинди, маратхи, непальский, тамильский и урду. Мы систематически изучили все возможные языковые пары внутри каждой группы.

          Чтобы соединить языки разных групп, мы определили небольшое количество промежуточных языков, которые обычно представляют собой от одного до трех основных языков каждой группы. В приведенном выше примере хинди, бенгальский и тамильский языки были бы промежуточными языками для индоарийских языков. Затем мы изучили данные параллельного обучения для всех возможных комбинаций этих промежуточных языков. Используя эту технику, наш обучающий набор данных получил 7,5 миллиардов параллельных предложений данных, соответствующих 2200 направлениям. Поскольку добытые данные можно использовать для обучения двух направлений заданной языковой пары (например, en->fr и fr->en), наша стратегия добычи помогает нам эффективно разреженно добывать данные, чтобы наилучшим образом охватить все 100×100 (всего 9 языков).,900) направлений в одной модели.

          Для дополнения параллельных данных по малоресурсным языкам с низким качеством перевода мы использовали популярный метод обратного перевода, который помог нам занять первые места на международных конкурсах машинного перевода WMT 2018 и 2019 годов. Например, если наша цель — обучить модель перевода с китайского на французский, мы сначала обучим модель для французского на китайский и переведем все одноязычные французские данные для создания синтетического китайского с обратным переводом. Мы обнаружили, что этот метод особенно эффективен в больших масштабах при переводе сотен миллионов одноязычных предложений в параллельные наборы данных. В наших условиях исследования мы использовали обратный перевод, чтобы дополнить обучение направлений, которые мы уже изучили, добавив синтетические данные обратного перевода к добытым параллельным данным. И мы использовали обратный перевод для создания данных для ранее неконтролируемых направлений.

          В целом, сочетание нашей стратегии моста и данных с обратным переводом улучшило производительность по 100 направлениям с обратным переводом в среднем на 1,7 BLEU по сравнению с обучением только на добытых данных. Благодаря более надежному, эффективному и высококачественному обучающему набору у нас была хорошая основа для построения и масштабирования нашей модели «многие ко многим».

          Мы также получили впечатляющие результаты при нулевых настройках, в которых отсутствуют обучающие данные для пары языков. Например, если модель обучена французско-английскому и немецко-шведскому языкам, мы можем выполнить нулевой перевод между французским и шведским языками. В условиях, когда наша модель «многие ко многим» должна обнулить перевод между направлениями, не относящимися к английскому языку, она была значительно лучше, чем многоязычные модели, ориентированные на английский язык.

          Масштабирование нашей модели MMT до 15 миллиардов параметров с высокой скоростью и качеством

          Одной из проблем многоязычного перевода является то, что единая модель должна фиксировать информацию на многих разных языках и в различных сценариях. Чтобы решить эту проблему, мы увидели явное преимущество в масштабировании возможностей нашей модели и добавлении параметров, зависящих от языка. Масштабирование размера модели полезно, в частности, для языковых пар с высоким уровнем ресурсов, поскольку они содержат больше всего данных для обучения дополнительной емкости модели. В конечном итоге мы увидели среднее улучшение в 1,2 BLEU, усредненное по всем языковым направлениям, при плотном масштабировании размера модели до 12 миллиардов параметров, после чего наблюдалось уменьшение отдачи от дальнейшего плотного масштабирования. Сочетание плотного масштабирования и разреженных параметров для конкретного языка (3,2 миллиарда) позволило нам создать еще лучшую модель с 15 миллиардами параметров.

          Мы сравниваем нашу модель с базовыми двуязычными и англоязычными многоязычными моделями. Мы начинаем с 1,2 миллиарда базовых параметров с 24 слоями кодировщика и 24 слоями декодера и сравниваем англо-ориентированные модели с нашей моделью M2M-100. Далее, если мы сравним 12 миллиардов параметров с 1,2 миллиардами параметров, мы получим улучшение на 1,2 балла BLEU.

          Чтобы увеличить размер нашей модели, мы увеличили количество слоев в наших сетях Transformer, а также ширину каждого слоя. Мы обнаружили, что большие модели быстро сходятся и обучаются с высокой эффективностью данных. Примечательно, что эта система «многие ко многим» является первой, использующей Fairscale, новую библиотеку PyTorch, специально разработанную для поддержки конвейерного и тензорного параллелизма. Мы построили эту общую инфраструктуру для размещения крупномасштабных моделей, которые не помещаются на одном графическом процессоре, за счет параллелизма моделей в Fairscale. Мы создали оптимизатор ZeRO, внутриуровневый параллелизм моделей и параллелизм конвейерных моделей для обучения крупномасштабных моделей.

          Но недостаточно просто масштабировать модели до миллиардов параметров. Чтобы иметь возможность производить эту модель в будущем, нам необходимо максимально эффективно масштабировать модели с помощью высокоскоростного обучения. Например, во многих существующих работах используется мультимодельный ансамбль, когда несколько моделей обучаются и применяются к одному и тому же исходному предложению для получения перевода. Чтобы уменьшить сложность и объем вычислений, необходимых для обучения нескольких моделей, мы изучили самостоятельную сборку из нескольких источников, которая переводит исходное предложение на несколько языков для повышения качества перевода. Кроме того, мы опирались на нашу работу с LayerDrop и Depth-Adaptive для совместного обучения модели с общим стволом и различными наборами языковых параметров. Этот подход отлично подходит для моделей «многие ко многим», поскольку он предлагает естественный способ разделения частей модели по языковым парам или языковым семьям. Комбинируя плотное масштабирование емкости модели с параметрами, зависящими от языка (всего 3 миллиарда), мы предоставляем преимущества больших моделей, а также возможность изучения специализированных слоев для разных языков.

          На пути к единой многоязычной модели для всех

          В течение многих лет исследователи искусственного интеллекта работали над созданием единой универсальной модели, способной понимать все языки при выполнении различных задач. Единая модель, поддерживающая все языки, диалекты и модальности, поможет нам лучше обслуживать больше людей, обновлять переводы и в равной степени создавать новые впечатления для миллиардов людей. Эта работа приближает нас к этой цели.

          В рамках этих усилий мы наблюдаем невероятно быстрый прогресс в предварительно обученных языковых моделях, тонкой настройке и методах самоконтроля. Это коллективное исследование может еще больше улучшить то, как наша система понимает текст для языков с низким уровнем ресурсов, используя немаркированные данные. Например, XLM-R — это наша мощная многоязычная модель, которая может обучаться на основе данных на одном языке, а затем выполнять задачу на 100 языках с высочайшей точностью. mBART — это один из первых методов предварительной подготовки полной модели для выполнения задач BART на многих языках. А совсем недавно наш новый подход с самоконтролем, CRISS, использует немаркированные данные из множества разных языков для анализа параллельных предложений на разных языках и обучения новых, более совершенных многоязычных моделей итеративным способом.

          Мы продолжим улучшать нашу модель, используя передовые исследования, изучая способы ответственного развертывания систем машинного перевода и создавая более специализированные вычислительные архитектуры, необходимые для внедрения этого в производство.

          Что такое ИИ-перевод и как он работает?

          по

          AZ Сьюзен

          /

          Искусственный интеллект использует машинное обучение, чтобы машины или программное обеспечение могли выполнять задачи без вмешательства человека. Виды ИИ различаются, но все они основаны на мощности обработки для выявления шаблонов в наборах данных, а затем сравнивают различные приложения этих шаблонов, чтобы найти решения, отвечающие потребностям конкретных задач.

          Нетрудно понять, почему ИИ применим к переводу. Языки — это в основном большие наборы данных, заполненные значениями и словами, которые регулируются правилами, определяющими использование слов.

          Процесс перевода с помощью ИИ

          Перевод с помощью ИИ — это просто применение машинного обучения к различным языкам. Это далеко от обычного машинного перевода, который просто переводит каждое слово, часто приводя к серьезным неверным толкованиям.

          Однако инструменты ИИ могут понимать слова, тон голоса, сложную структуру предложений и даже шутки или сленг.

          Обычно это приводит к повышению качества перевода и более эффективному приспособлению контента к конкретным рынкам.

          Нейронный машинный перевод

          ИИ-перевод использует метод, известный как нейронный машинный перевод (NMT), который был впервые разработан Google в 2016 году и с самого начала. Программное обеспечение NMT в первую очередь имитирует метод изучения языков людьми.

          Эти инструменты исследуют языковые закономерности, используя огромное количество документов как на исходном, так и на целевом языках. Системы NMT используют эту информацию для создания кодов, которые сопоставляют почти любое слово или фразу с целевым языком.

          Нейронные обучающие системы созданы для повышения их точности в ходе выполнения задачи до тех пор, пока они не достигнут уровня естественного мастерства.

          Например, сайт Google Translate с искусственным интеллектом. Со временем сайт превратился в сложный инструмент, специально предназначенный для более распространенных языков, а также простых текстов.

          Каковы преимущества и недостатки использования ИИ-переводчиков?

          Является ли ИИ уже технологией перевода для использования в усилиях по локализации? Возможно, да, однако есть некоторые важные плюсы и минусы, о которых пользователи должны знать.

          Несомненно, переводчики с искусственным интеллектом предлагают ряд важных преимуществ, в том числе:

          • Скорость: скорость Инструменты для перевода на основе искусственного интеллекта могут обеспечить мгновенный перевод для путешественников в то время, когда они больше всего нужны. Например, они хорошо понимают меню на разных языках, а также расшифровывают уличные знаки.
          • Поддержка: переводчики с искусственным интеллектом могут служить незаменимыми помощниками для настоящих переводчиков. Они могут немедленно давать обратную связь авторам, когда они создают рекламу, или просматривать огромные объемы текста на наличие комментариев к пакету переводов. Они также могут выявить проблемы с акцентами, о которых старые цифровые переводчики могут не знать.
          • Стоимость: наиболее эффективное программное обеспечение искусственного интеллекта для языков способно переводить огромные объемы текста с высокой точностью без финансовых затрат, которые несут переводчики-люди. В некоторых случаях переводчики-люди могут выполнять задачи по контролю качества цифровых пакетов, резко сокращая расходы, связанные с переводом.

          Однако есть и некоторые потенциальные недостатки:

          • Культурные заблуждения ИИ-переводчики могут быть более точными, чем когда-либо; однако они не люди, которые глубоко понимают местную культуру. Правильные переводы могут по-прежнему быть оскорбительными или вводить в заблуждение местных жителей, а юмор — это то, что компьютеры не могут полностью изучить.
          • Сложность; Лучший контент изначально прост, однако некоторые тексты считаются сложными, например, технические руководства. Переводчики ИИ могут быть не в состоянии справиться с неясными или неясными текстами. Они могут быть не лучшим выбором для точного перевода, когда требуется технический жаргон.
          • Мягкость Компьютеры чрезвычайно хорошо справляются с повторяющимися задачами и имеют четко определенные результаты, но они не способны сделать тексты приятными и интересными для чтения. Тексты, созданные с помощью ИИ, часто бывают скучными и неинтересными. Это не всегда плохо, но для брендинга нужна правильная личность, и она должна быть обеспечена людьми.

          Принимая во внимание все эти плюсы и минусы, для чего можно использовать ИИ-перевод?

          ИИ хорошо подходит для решения самых разных задач в процессе локализации, однако он не только переводчик. Вместо этого большинство сервисов транскреации используют потенциал машинного обучения для увеличения усилий людей-переводчиков.

          ИИ как механизм обеспечения качества

          ИИ действует как механизм обеспечения качества, автоматически проверяя написанные человеком документы на наличие ошибок.

          ИИ решает тексты

          ИИ будет решать, какие тексты могут обрабатываться машинами, а какие должны быть переданы переводчикам-людям. Анализ количества неясных, а также «нечетких» фраз дает отличное представление о том, насколько простым может быть перевод текста.

          Преимущество для переводчиков-людей

          Переводчики-люди получают постоянную помощь ИИ, в том числе переводчики, использующие инструменты, предоставляющие предложения в режиме реального времени. Они также могут предлагать метрики полных текстов, которые анализируют различное качество перевода.

          Предприятия могут управлять проектами локализации

          Предприятия могут использовать ИИ для управления проектами локализации. Они могут автоматизировать процесс создания контента и перевода, если это возможно, и контролировать рабочие процессы, чтобы гарантировать поддержание качества, а также отслеживать этапы времени и затрат.

          Повышение эффективности

          Представьте себе ИИ-переводчиков как способ повысить эффективность переводчиков-людей, а также сделать проекты более управляемыми. И то, и другое — отличная новость для компаний, которые хотят перевести свой контент на другие языки.

          Некоторые переводческие проекты не подходят для переводчиков ИИ. Как мы упоминали ранее, проекты со сложными уровнями сложности, а также технические языки плохо подходят для ИИ.

          Научные термины представляют собой проблему

          Научные и юридические термины могут создавать уникальные проблемы для систем машинного обучения. Точно так же эксперты-люди, как правило, могут быть более надежными.

          Огромное количество простого текста

          ИИ действительно проявляет себя, когда есть огромное количество простого текста . Руководители проектов могут запрограммировать системы искусственного интеллекта на базовую локализацию с учетом тона речи, беглости речи и даже некоторых культурных аспектов. Они также могут применять рекомендации по брендингу к различным типам контента.

          Функции обслуживания клиентов

          ИИ часто используется компаниями при выполнении функций обслуживания клиентов. Например, компании часто используют инструменты Microsoft LUIS для оказания локализованной помощи клиентам без привлечения большого числа сотрудников.

          Редактирование и задачи обеспечения качества

          ИИ является ключевым компонентом в различных задачах редактирования и обеспечения качества. Это не обязательно приложение для перевода документов. ИИ больше подходит для проверки переводов, а также для проверки их качества при локализации.

          Средства перевода на основе ИИ

          Средства перевода на основе ИИ неизбежно будут расширяться с развитием технологий ИИ, а ИИ растет с невероятной скоростью. Инвестиции в ИИ увеличились с 12,75 млрд долларов в 2015 году до 67,8 млрд долларов в 2020 году. Рынок машинного перевода расширяется примерно на 19% в год.

          Но это не значит, что искусственный интеллект заменит человека за считанные минуты. Хотя ИИ чрезвычайно мощен, он не способен воспроизвести умственные процессы людей как писателей и читателей. ИИ не может шутить или использовать разговорные выражения, как это делают люди. ИИ не хватает стиля или мастерства, которые есть у писателей в реальной жизни.

          Компьютеры могут развивать эти навыки?

          Безусловно, и в конце концов они будут. Однако со временем ИИ начинает процветать как помощник переводчикам, а также как метод повышения их эффективности.

          BEND использует ИИ-перевод и человеческую локализацию, а также глубокий опыт работы с платформами, чтобы обеспечить наиболее эффективные результаты для компаний с многоязычными и международными целями.

          Мы используем новейшие технологии искусственного интеллекта для обслуживания наших клиентов. Кроме того, наша команда использует передовые инструменты для постредактирования и перевода, когда это возможно.

          Помощь в переводе с помощью ИИ может сократить затраты и сроки инициатив по локализации, сохраняя при этом высочайший уровень качества. Кроме того, он более эффективен в сочетании с нашими реальными переводчиками.

          Как совершенствуются ИИ-переводчики?

          Цифровые переводчики становятся все лучше и эффективнее. ИИ сделал огромный скачок благодаря развитию нейронного машинного перевода, также известного как NMT. Эта технология очень эффективна благодаря своей способности обрабатывать большие объемы данных.

          Вот почему такие фирмы, как Google, могут предоставлять более качественные результаты. Это хорошая вещь! У вас меньше шансов столкнуться с неловкими неправильными переводами.

          Какие технологии искусственного интеллекта доступны для переводчиков?

          Одним из наиболее значительных улучшений является Google Translate, который теперь поставляется с функциями камеры, которые мгновенно преобразовывают текст с одного языка на другой. Это так же просто, как просто навести смартфон на слово, и Google сделает работу как по волшебству!

          Технология распознавания речи ИИ была улучшена, поскольку теперь он может разговаривать с вами. Однако его часто критикуют из-за отсутствия естественного звука. Это область, в которой Google впереди.

          Они изобрели метод использования «отпечатков голоса», чтобы сохранить подлинный голос говорящего. Представьте себе робота, способного показывать ваши эмоции! Google не одинок в создании новейших технологий для перевода.

          Microsoft создала Microsoft LUIS, который используется в чат-ботах для общения с пользователями на естественном языке. Они также разработали приложение, которое переводит уличные знаки.

          Самым значительным преимуществом этого приложения является то, что его можно использовать в автономном режиме. Это может означать конец постоянно спрашивать дорогу, пока вы находитесь в другой стране?

          У него также есть IBM Watson — первый в мире суперкомпьютер, способный отвечать на вопросы с той же скоростью, что и высокофункциональный человек. В 2011 году Уотсон участвовал в шоу Jeopardy и выиграл первый приз в размере 1 000 000 долларов.

          Мы также наблюдаем увеличение количества наушников-вкладышей от таких компаний, как Waverly Labs. Все, что вам нужно сделать, это подключить наушник, и устройство будет переводить разговоры в режиме реального времени, так что вы сможете участвовать в разговорах на двух разных языках. Это идеально подходит для ведения бизнеса с международными клиентами или для новых друзей!

          Что произойдет с ИИ-переводчиками в области изучения языков?

          Инструменты для перевода на основе ИИ прекрасно подходят для самостоятельного изучения или помощи в классе, однако часто создаваемые ими переводы должны проверяться кем-то, кто является человеком, поскольку они могут совершать очевидные ошибки.