Доменно-адаптивные движки: машинный перевод под нужды вашей компании
2019-21-06 | Дмитрий СоснинЗа последние 10-15 лет мы переложили на плечи компьютеров практически всю рутину, в том числе и в области технического перевода. Автоматические переводчики – вроде Google Translate – с каждым годом работают всё лучше, переводят всё точнее и, главное, делают это моментально. Хотя, конечно, непонимание контекста остаётся серьёзной проблемой. Одним из инструментов, которые помогают её решить, являются «доменно-адаптивные движки», которым и посвящена эта статья.
В чём проблема с контекстом?
Только в том, что иногда его попросту нет в исходном тексте. При этом многие, казалось бы, общеупотребительные слова и фразы в техническом переводе означают совсем не то, что в базовой лексике. Классический пример: «A naked conductor runs under the tram». Это короткое предложение Google Translate, не имея контекста, переводит в общей тематике: «Голый кондуктор бежит под трамваем». Пикантная ситуация, которая не имеет ничего общего с действительностью – на самом деле имелось в виду: «Оголённый проводник проходит под вагоном», вполне обычный технический текст.
Система не справилась с переводом, потому что в исходной фразе не было никакого указания на технический контекст, а по умолчанию Google Translate использует именно словари общей лексики. И это правильный подход, но только не в том случае, когда вы в основном работаете с какой-то узкой тематикой: строительством, медициной, IT и т. д. При таких вводных вы обычно хотите видеть именно перевод с использованием словарей вашей сферы деятельности, и как раз для этого созданы доменно-адаптивные движки.
Что такое доменно-адаптивный движок, и как он работает?
Это ядро системы машинного перевода – движок – который использует базы данных (корпусы) по определённой тематике. Вы можете установить такую систему себе на сайт, подгрузить базы, соответствующие сфере деятельности вашей компании, и у вас будет собственный онлайн-переводчик. Технически система работает так же, как Google Translate, но в приоритет она будет использовать лексику вашей отрасли.
Доменно-адаптивные движки широко используются для технического перевода в самых разных областях:
- Медицина;
- Нефтегазовый сектор;
- Инженерные изыскания и т. д.
Если вы постоянно работаете с текстами на других языках – например, поддерживаете отношения с партнёрами из других стран или продаёте свой продукт в несколько государств с разными языками – запуск собственной доменно-адаптивной системы перевода серьёзно упростит работу ваших переводчиков и разгрузит их.
Насколько доменно-адаптивные движки лучше, чем обычные?
При работе конкретно в выбранной отрасли – существенно. В 2018 компания Intento провела эксперимент: она сравнила точность медицинского технического перевода с английского языка на немецкий, сделанного доменно-адаптивными и стандартными системами.
В сравнении участвовали 6 доменно-адаптивных движков:
- Google Cloud AutoML Translation;
- IBM Cloud Language Translator v3;
- Microsoft Custom Translate v3;
- Enterprise AI ModernMT;
- Tilde Custom MT;
- Globalese Custom NMT.
Эти движки сравнивались со своими «базовыми» версиями, а также с продуктами других компаний: Baidu, Amazon, Systran, Yandex и т. д. В результате оказалось, что системы с подключенными специализированными корпусами на 5-20% эффективнее, чем обычные. Подробнее с результатами исследования и методикой тестирования можно ознакомиться здесь.
Таким образом, машинный технический перевод становится быстрее и точнее, требует меньше внимания от человека. Для компании это значит, что затраты на работу с переводами будут снижаться. Конечно, есть моменты, которые нужно учитывать – например, то, что у подобных продуктов могут возникнуть проблемы с адекватным переводом базовой лексики. Тем не менее, будущее профессионального технического перевода вполне может оказаться именно за доменно-адаптивными движками.
Что касается применения подобных систем в России – эту тему достаточно подробно разбирали 25 мая в Москве, на Седьмом Гипербатоне от Яндекса. Запись трансляции доступна здесь, а связанную с ней статью по доменно-адаптивным движкам можно скачать по этой ссылке.