Технологии - Бюро переводов Sialia Global

За последние 10-15 лет мы переложили на плечи компьютеров практически всю рутину, в том числе и в области технического перевода. Автоматические переводчики – вроде Google Translate – с каждым годом работают всё лучше, переводят всё точнее и, главное, делают это моментально. Хотя, конечно, непонимание контекста остаётся серьёзной проблемой. Одним из инструментов, которые помогают её решить, являются «доменно-адаптивные движки», которым и посвящена эта статья.

В чём проблема с контекстом?

Только в том, что иногда его попросту нет в исходном тексте. При этом многие, казалось бы, общеупотребительные слова и фразы в техническом переводе означают совсем не то, что в базовой лексике. Классический пример: «A naked conductor runs under the tram». Это короткое предложение Google Translate, не имея контекста, переводит в общей тематике: «Голый кондуктор бежит под трамваем». Пикантная ситуация, которая не имеет ничего общего с действительностью – на самом деле имелось в виду: «Оголённый проводник проходит под вагоном», вполне обычный технический текст.

Система не справилась с переводом, потому что в исходной фразе не было никакого указания на технический контекст, а по умолчанию Google Translate использует именно словари общей лексики. И это правильный подход, но только не в том случае, когда вы в основном работаете с какой-то узкой тематикой: строительством, медициной, IT и т. д. При таких вводных вы обычно хотите видеть именно перевод с использованием словарей вашей сферы деятельности, и как раз для этого созданы доменно-адаптивные движки.

Что такое доменно-адаптивный движок, и как он работает?

Это ядро системы машинного перевода – движок – который использует базы данных (корпусы) по определённой тематике. Вы можете установить такую систему себе на сайт, подгрузить базы, соответствующие сфере деятельности вашей компании, и у вас будет собственный онлайн-переводчик. Технически система работает так же, как Google Translate, но в приоритет она будет использовать лексику вашей отрасли.

Доменно-адаптивные движки широко используются для технического перевода в самых разных областях:

Медицина;
Нефтегазовый сектор;
Инженерные изыскания и т. д.

Если вы постоянно работаете с текстами на других языках – например, поддерживаете отношения с партнёрами из других стран или продаёте свой продукт в несколько государств с разными языками – запуск собственной доменно-адаптивной системы перевода серьёзно упростит работу ваших переводчиков и разгрузит их.

Насколько доменно-адаптивные движки лучше, чем обычные?

При работе конкретно в выбранной отрасли – существенно. В 2018 компания Intento провела эксперимент: она сравнила точность медицинского технического перевода с английского языка на немецкий, сделанного доменно-адаптивными и стандартными системами.

В сравнении участвовали 6 доменно-адаптивных движков:

Google Cloud AutoML Translation;
IBM Cloud Language Translator v3;
Microsoft Custom Translate v3;
Enterprise AI ModernMT;
Tilde Custom MT;
Globalese Custom NMT.

Эти движки сравнивались со своими «базовыми» версиями, а также с продуктами других компаний: Baidu, Amazon, Systran, Yandex и т. д. В результате оказалось, что системы с подключенными специализированными корпусами на 5-20% эффективнее, чем обычные. Подробнее с результатами исследования и методикой тестирования можно ознакомиться здесь.

Таким образом, машинный технический перевод становится быстрее и точнее, требует меньше внимания от человека. Для компании это значит, что затраты на работу с переводами будут снижаться. Конечно, есть моменты, которые нужно учитывать – например, то, что у подобных продуктов могут возникнуть проблемы с адекватным переводом базовой лексики. Тем не менее, будущее профессионального технического перевода вполне может оказаться именно за доменно-адаптивными движками.

Что касается применения подобных систем в России – эту тему достаточно подробно разбирали 25 мая в Москве, на Седьмом Гипербатоне от Яндекса. Запись трансляции доступна здесь, а связанную с ней статью по доменно-адаптивным движкам можно скачать по этой ссылке.

Казалось бы, что нового может появиться в лингвистике, как в науке? Языки формировались тысячелетиями, их изучение ведётся многие века – и за это время должны были устояться все методы, все подходы. Но на самом деле лингвистика постоянно развивается: и лучший пример этого развития – теория корпусов.

Что такое корпусная лингвистика?

Лингвистический корпус – это собрание текстов, которые:

Выбраны по какому-то определённому признаку (один язык, жанр, период создания и т. д.);
Специальным образом размечены (выделены клише, термины, устойчивые конструкции и т. д.).

То есть, корпус представляет собой большую базу данных, в которой хранятся естественно сформированные человеком тексты. В этом и есть их основная ценность, в естественном происхождении материала.

Когда исследователь – например, разработчик онлайн-переводчика – изучает какой-то язык (принципы построения фраз, частотные словосочетания и т. д.), ему необходимо работать именно с реально использованными текстами. Он не может просто составить нужный программе для примера текст, потому что это будет искусственный материал, сделанный самим исследователем – а значит, он не показателен. Корпуса же имеют настоящий коммуникативный контекст, они реально использовались для решения тех или иных задач. Соответственно, этот материал просто бесценен для разработчиков и исследователей.

История корпусов

Сам термин появился в 60-х – вместе с первым корпусом (Брауновский корпус, 1961-й год) но настоящее развитие теория корпусов получила только в конце 80-х, когда эволюция компьютеров наконец вышла на достаточный для обработки таких собраний текстов виток. Дело в том, что изначально, в 60-е и 70-е, электронных мощностей хватало только на работу с корпусами в миллион слов: это всего 500 текстовых фрагментов по 2 тысячи слов в каждом (Брауновский был как раз таким). Для сравнения: в этой статье 753 слова.

В масштабах языка такой корпус совершенно непредставителен: например, в Брауновском корпусе слово «polite» – вежливый – встречалось всего 7 раз. И это при том, что «polite» – одно из самых обыденных и употребительных слов.

Естественно, что как только компьютерная техника получила большие мощности, лингвисты начали создавать более масштабные корпуса. Уже в 90-х использовались собрания текстов, включавшие в себя сотни миллионов слов, а сегодня и миллиардные корпуса – это не редкость. В качестве примера можно привести Acquis Communautaire – базу данных Евросоюза, содержащую переводы европейского законодательства на 22 языка. В ней как раз около миллиарда слов.

Зачем нужны корпуса с практической точки зрения?

Тексты, входящие в корпус, обрабатывают при помощи специального ПО: анализируют, раскладывают на составляющие. Эти составляющие – часто встречающиеся слова и словосочетания, а также условия, при которых они используются (контекст) – стали основой для современных систем машинного перевода.

С точки зрения основ машинный перевод работает очень просто: система подключена к базе данных – корпусу (или к нескольким корпусам, об этом ниже) – и активно использует поиск по паттернам: словам и словосочетаниям. Находя в корпусе соответствующий по составу и условиям использования паттерн, автоматический переводчик выдаёт его в качестве результата.

Виды корпусов

Современная лингвистика выделяет три типа корпусов:

Монолингвальные корпусы. Они же «одноязычные». Это собрания текстов на одном и том же языке, которые используются для определения регистра (стилевых и жанровых особенностей), характерного для этого языка и типа текстов. Очень часто монолингвальные корпусы посвящены конкретной области деятельности: например, исследователь может взять собрание юридических текстов, вычленить из них все термины и клише – создать эталонный корпус, на который система будет опираться при переводе;
Сравнительные билингвальные корпусы. Они же «двуязычные». Собрание, в котором каждый текст представлен на нескольких языках: оригинал и несколько переводов (как правило, используются 2 перевода на 2 различных языка). Такие корпусы становятся основой для машинного перевода: они помогают определить соответствие терминов, частотных словосочетаний и т. д.;
Параллельные корпусы. Это сопоставленные по абзацам пары «оригинал-перевод»: исследователь берёт два текста и сводит их вместе.

Особую ценность для автоматизации профессионального перевода имеют тематические корпуса – например, корпус, сформированный Гранжером и Петч-Тайсоном (Granger and Petch-Tyson). Это собрание статей по биохимическим исследованиям, содержащее 500 000 слов.

Корпуса – это «фундамент» машинного перевода

Именно проработанность корпусов определяет качество работы машинного перевода. Например, Google Translate действительно хорошо переводит только в направлении с английского на другие языки и чуть хуже с других языков на английский. При этом система сравнительно плохо работает с парами языков, не включающими в себя английский вообще.

Это связано не с тем, что Google Translate – американская разработка. Причина заключается в том, что именно английский язык с точки зрения лексикографии и теории перевода более прост в обращении – это хорошо показал в своих работах Стиг Йоханссон (Stig Johansson), разрабатывавший корпусы норвежского и английского языков. Грубо говоря, машине проще всего понимать логику именно английского языка – соответственно, и качество перевода будет выше. Кроме того, корпусная лингвистика английского языка более развита.

В конечном счёте, именно теория корпусов позволила машинному переводу развиться до уровня, на котором он находится сейчас. И именно благодаря развитию корпусов, их масштабированию и расширению, качество перевода в автоматических системах продолжает повышаться.

Библиография:

Jeremy Munday, Introducing Translation Studies. Theories & Applications. / 3rd Edition. Taylor & Francis / London, 2014, pp 283-288

Искусственный интеллект и нейросети – один из основных трендов 2019-го. С каждым годом (а то и с каждым месяцем) машины берут на себя всё больше рутинных задач, освобождая для нас сотни и тысячи человекочасов. Работает ли это в сфере переводов? Безусловно. Сегодня поговорим о том, как выглядит автоматизация деятельности переводчика в 2019-м – и о том, какие инструменты помогут вам сэкономить время и силы.

Машинный перевод

Основа основ в автоматизации: перевод, сделанный компьютером. Исторически у такого решения есть две проблемы – непонимание контекста и дословная трактовка, но сейчас оба этих минуса сглаживаются развитием нейросетей, памяти перевода и других решений. Тем не менее, машинный перевод был и остаётся базой для большинства других инструментов.

Подробнее читайте в ещё одной нашей статье.

Cat-программы

CAT – computer-assisted translation – это один из основных инструментов, которым пользуются современные переводчики. Программа хранит память обо всех ваших переводах, огромную базу по переводам от других специалистов, способна выполнять машинный перевод с учётом контекста: в общем, совершенно незаменимый инструмент. Подробнее о CAT-сервисах читайте в нашей отдельной статье.

CMS и локализаторы

В локализации сайтов и приложений используется целый набор специальных инструментов, которые облегчают работу по переводу элементов интерфейса и страниц с информацией. Мы подготовили по таким программам полноценный материал, он доступен здесь.

Электронные и терминологические словари

Электронные словари начали появляться ещё на заре компьютеризации. Изначально они представляли собой простой перенос традиционных бумажных словарей в электронный формат, со всеми вытекающими из этого преимуществами:

Сравнительно низкая цена;
Огромный объём;
Быстрый и удобный поиск.

15 лет назад, в середине нулевых, эта концепция ещё работала – и многие специалисты в области лексикографии считали, что так будет и дальше. Тем не менее, за прошедшие годы концепция шагнула далеко вперёд. Словари переехали в облако, произошла интеграция с «памятью переводов» (Translation Memory), многие из них стали основой для масштабных CAT-программ: SmartCAT, MemoQ и т. д.

Автоматизация редактуры

Перед тем, как сдавать перевод клиенту, его нужно вычитать: проверить на все ошибки и неточности. И с этим очень помогают автоматизированные системы. С простейшей из них вы знакомы по Word или OpenOffice, но есть и специализированные сервисы редактуры, которые задействуют для проверки текста большие мощности и вылавливают практически любые ошибки.

Один из таких сервисов – Jira от компании Atlassian. Система позволяет детально настраивать форматирование и редактуру для каждого проекта, обладает широкими возможностями и окупает стоимость лицензии (порядка $7 в месяц) в первые же дни активной работы.

Автоматизация рабочего процесса

При работе с масштабными проектами и большими объёмами информации очень большое значение имеет грамотная организация процесса. Переводчик, менеджер и клиент должны постоянно взаимодействовать, поэтому на первый план выходит прозрачность сотрудничества и возможность одновременно работать над задачей.

Такие услуги предоставляют масштабные системы перевода, вроде:

XTM. Сложный продукт с огромным количеством возможностей и сложной настройкой – обычно используется крупными компаниями, которые занимаются переводом в промышленных объёмах;
SmartCAT. Онлайн-платформа, построенная на открытом взаимодействии пользователей и заказчиков. Если XTM рассчитана на корпоративное использование, то SmartCAT доступна и частным переводчикам. В системе есть встроенная база клиентов и исполнителей, а также через неё можно вести взаиморасчёты.

Подобные комплексные системы – вершина развития CAT на данный момент: они объединяют в себе все нужные возможности и позволяют вести весь рабочий процесс через своё приложение.

Любой перевод можно автоматизировать?

К сожалению, пока что нет. Автоматические системы отлично справляются с техническими, юридическими или типовыми текстами, но художественная книга или, к примеру, перевод стихов остаются для них недоступными. То же самое касается текстов публичных выступлений, сложной риторики, многозначных слов с неясным контекстом – с подобными задачами справляется только живой переводчик. Автоматизация остаётся вспомогательным инструментом: удобным, практичным, серьёзно облегчающим жизнь, но неспособным полностью заменить человека. И вряд ли в этом плане что-то изменится в ближайшие годы.

Людям всегда будет проще общаться голосом, чем писать или набирать текст на клавиатуре – именно поэтому компания, которая первая выведет на рынок идеальный сервис распознавания речи, получит миллиарды клиентов. Но насколько технологические гиганты близки к созданию такого сервиса и в чём вообще проблема? Давайте разбираться.

Сложности с распознаванием речи

Первые попытки создать машину, понимающую человека, были сделаны ещё в середине прошлого века: в 1952-м компания Bell Laboratories показала миру «Одри» – устройство, способное с точностью 90% распознать цифры от 0 до 9. Тогда же были сформулированы основные проблемы с распознаванием речи:

1. Все люди говорят по-разному: диалект, акцент, скорость речи – на произношение влияют даже пол и социальный класс. «Одри», кстати, показывала свои 90% только при общении с изобретателем, других людей она понимала с точностью 70-80%;

2. В речи есть похожие слова и фразы, которые сложно отличить друг от друга: вместо «покалечилась» машина может услышать «пока лечилась», вместо «несуразные вещи» – «несу разные вещи» и так далее;

3. Распознаванию голоса очень мешают фоновые шумы.

С первыми «распознавателями речи» приходилось говорить, постоянно делая паузы и очень медленно. Но, к счастью, ситуация изменилась с приходом…. iPhone?

Google Voice Search, резкий скачок технологий и современное положение дел

В 2008-м году Google выпустил свой голосовой поиск для iOS – Siri. Сервис достаточно точно понимал вопросы пользователя и в буквальном смысле произвёл революцию на рынке. Сразу же отреагировали Microsoft со своей Cortana, Amazon с Alexa – каждый из технологических гигантов выпустил своё решение и работает над его развитием.

Сегодня поддержка голосовых команд есть не только на смартфонах и компьютерах, но и в системах «Умный дом», автонавигаторах, бытовой технике – практически в любых приборах. Естественно, есть голосовой ввод и в самых популярных переводчиках – вроде Google Translate – но нужно учитывать, что точность распознания текста в «свободной форме» ниже, чем в случае с закреплёнными командами вроде «Siri, погода». Тем не менее, темпы развития таких технологий поражают: главный барьер – барьер смущения – пройден, люди активно общаются с машинами, а уровень взаимопонимания растёт с каждым годом.

Многие переводчики к технологиям машинного перевода относятся снисходительно – и, нужно признать, определённые причины для этого есть. Или, по крайней мере, они были до недавнего времени. В качестве основных недостатков сделанного автоматикой перевода обычно указывают:

Дословность. Машина переводит тексты слово в слово, зачастую не делая поправки ни на грамматически верный порядок слов, ни на структуру предложений;
Непонимание контекста. Многие слова имеют несколько значений, подходящее человек выбирает, исходя из контекста. Машины этот контекст не распознают, соответственно, смысл фразы может меняться.

Эти две проблемы действительно существуют, но сейчас стремительно прогрессируют нейросети – и, естественно, построенный на их основе искусственный интеллект применяют и в переводах. Те же сервисы Google Translate и Яндекс.Переводчик за последние год-два сделали огромный скачок в развитии, они стремительно учатся распознавать контекст и корректно строить предложения. Со временем, вероятно, трудности автоматического перевода вообще станут историей.

Тем не менее, и сегодня – на текущем уровне развития программ-переводчиков – есть ситуации, в которых машинный перевод вполне можно использовать. А порой он вообще становится незаменим.

В каких случаях машинный перевод – хорошее решение?

Прежде всего, автоматический перевод вполне уместен, если им пользуется непрофессионал, знающий исходный (или целевой) язык на любительском уровне. К примеру, Вам нужно быстро прочитать написанную на английском статью, но навыка чтения больших текстов на иностранном языке «с листа» у Вас нет. Загоняете текст в Google Translate, и – хотя качество перевода не сравнится с профессиональным – вполне сможете понять, о чём идёт речь. В спорных случаях всегда можно глянуть в оригинал: перевести одну-две фразы – задача гораздо менее трудоёмкая, чем читать всю статью целиком.

Далее: автоматический перевод практически незаменим, когда результат нужно получить срочно. Если скорость важнее, чем качество – а спорные моменты, опять-таки, можно будет посмотреть в оригинале – машинный перевод будет отличным решением.

Хорош сделанный программой перевод и в том случае, если нужно срочно объясниться с иностранцем, а переводчика рядом нет. Простые вопросы – вроде «Сколько стоит эта вещь?», «Какого чёрта, почему так дорого!!?!», «Нет, я не буду покупать. Как пройти до метро?» — программа переведёт вполне корректно. То же самое касается и ответов собеседника.

Безусловно, если, в первую очередь, для Вас важно качество перевода, придётся обратиться к человеку – профессиональному переводчику. Общаясь с деловыми партнёрами через Google Translate, Вы можете допустить глупые ошибки, которые плохо скажутся на Вашем имидже. Переводя техническую статью программой, Вы можете получить текст с абсолютно искажённым смыслом.

Автоматический переводчик – это, прежде всего, инструмент, позволяющий экономить время. Он не умеет – пока не умеет – «работать под ключ». Он просто позволяет практически мгновенно получить «сырой» перевод, который вполне может вычитать редактор. И в этой роли программы действительно хороши. А для работы под ключ есть «Sialia Global»!