• Технологии. Инновации. Бизнес.
    Знание существует для того, чтобы его распространять
   Вернуться назад

Доменно-адаптивные движки: машинный перевод под нужды вашей компании

2019-21-06  |   Доменно-адаптивные движки: машинный перевод под нужды вашей компании

За последние 10-15 лет мы переложили на плечи компьютеров практически всю рутину, в том числе и в области технического перевода. Автоматические переводчики – вроде Google Translate – с каждым годом работают всё лучше, переводят всё точнее и, главное, делают это моментально. Хотя, конечно, непонимание контекста остаётся серьёзной проблемой. Одним из инструментов, которые помогают её решить, являются «доменно-адаптивные движки», которым и посвящена эта статья.

В чём проблема с контекстом?

Только в том, что иногда его попросту нет в исходном тексте. При этом многие, казалось бы, общеупотребительные слова и фразы в техническом переводе означают совсем не то, что в базовой лексике. Классический пример: «A naked conductor runs under the tram». Это короткое предложение Google Translate, не имея контекста, переводит в общей тематике: «Голый кондуктор бежит под трамваем». Пикантная ситуация, которая не имеет ничего общего с действительностью – на самом деле имелось в виду: «Оголённый проводник проходит под вагоном», вполне обычный технический текст.

Система не справилась с переводом, потому что в исходной фразе не было никакого указания на технический контекст, а по умолчанию Google Translate использует именно словари общей лексики. И это правильный подход, но только не в том случае, когда вы в основном работаете с какой-то узкой тематикой: строительством, медициной, IT и т. д. При таких вводных вы обычно хотите видеть именно перевод с использованием словарей вашей сферы деятельности, и как раз для этого созданы доменно-адаптивные движки.

Что такое доменно-адаптивный движок, и как он работает?

Это ядро системы машинного перевода – движок – который использует базы данных (корпусы) по определённой тематике. Вы можете установить такую систему себе на сайт, подгрузить базы, соответствующие сфере деятельности вашей компании, и у вас будет собственный онлайн-переводчик. Технически система работает так же, как Google Translate, но в приоритет она будет использовать лексику вашей отрасли.

Доменно-адаптивные движки широко используются для технического перевода в самых разных областях:

  • Медицина;
  • Нефтегазовый сектор;
  • Инженерные изыскания и т. д.

Если вы постоянно работаете с текстами на других языках – например, поддерживаете отношения с партнёрами из других стран или продаёте свой продукт в несколько государств с разными языками – запуск собственной доменно-адаптивной системы перевода серьёзно упростит работу ваших переводчиков и разгрузит их.

Насколько доменно-адаптивные движки лучше, чем обычные?

При работе конкретно в выбранной отрасли – существенно. В 2018-м году компания Intento провела эксперимент: она сравнила точность медицинского технического перевода с английского языка на немецкий, сделанного доменно-адаптивными и стандартными системами.

В сравнении участвовали 6 доменно-адаптивных движков:

  • Google Cloud AutoML Translation;
  • IBM Cloud Language Translator v3;
  • Microsoft Custom Translate v3;
  • Enterprise AI ModernMT;
  • Tilde Custom MT;
  • Globalese Custom NMT.

Эти движки сравнивались со своими «базовыми» версиями, а также с продуктами других компаний: Baidu, Amazon, Systran, Yandex и т. д. В результате оказалось, что системы с подключенными специализированными корпусами на 5-20% эффективнее, чем обычные. Подробнее с результатами исследования и методикой тестирования можно ознакомиться здесь.

Таким образом, машинный технический перевод становится быстрее и точнее, требует меньше внимания от человека. Для компании это значит, что затраты на работу с переводами будут снижаться. Конечно, есть моменты, которые нужно учитывать – например, то, что у подобных продуктов могут возникнуть проблемы с адекватным переводом базовой лексики. Тем не менее, будущее профессионального технического перевода вполне может оказаться именно за доменно-адаптивными движками.

Что касается применения подобных систем в России – эту тему достаточно подробно разбирали 25-го мая в Москве, на Седьмом Гипербатоне от Яндекса. Запись трансляции доступна здесь, а связанную с ней статью по доменно-адаптивным движкам можно скачать по этой ссылке.