Корпусная лингвистика

2019-01-04 | Дмитрий Соснин

Казалось бы, что нового может появиться в лингвистике, как в науке? Языки формировались тысячелетиями, их изучение ведётся многие века – и за это время должны были устояться все методы, все подходы. Но на самом деле лингвистика постоянно развивается: и лучший пример этого развития – теория корпусов.

Что такое корпусная лингвистика?

Лингвистический корпус – это собрание текстов, которые:

Выбраны по какому-то определённому признаку (один язык, жанр, период создания и т. д.);
Специальным образом размечены (выделены клише, термины, устойчивые конструкции и т. д.).

То есть, корпус представляет собой большую базу данных, в которой хранятся естественно сформированные человеком тексты. В этом и есть их основная ценность, в естественном происхождении материала.

Когда исследователь – например, разработчик онлайн-переводчика – изучает какой-то язык (принципы построения фраз, частотные словосочетания и т. д.), ему необходимо работать именно с реально использованными текстами. Он не может просто составить нужный программе для примера текст, потому что это будет искусственный материал, сделанный самим исследователем – а значит, он не показателен. Корпуса же имеют настоящий коммуникативный контекст, они реально использовались для решения тех или иных задач. Соответственно, этот материал просто бесценен для разработчиков и исследователей.

История корпусов

Сам термин появился в 60-х – вместе с первым корпусом (Брауновский корпус, 1961-й год) но настоящее развитие теория корпусов получила только в конце 80-х, когда эволюция компьютеров наконец вышла на достаточный для обработки таких собраний текстов виток. Дело в том, что изначально, в 60-е и 70-е, электронных мощностей хватало только на работу с корпусами в миллион слов: это всего 500 текстовых фрагментов по 2 тысячи слов в каждом (Брауновский был как раз таким). Для сравнения: в этой статье 753 слова.

В масштабах языка такой корпус совершенно непредставителен: например, в Брауновском корпусе слово «polite» – вежливый – встречалось всего 7 раз. И это при том, что «polite» – одно из самых обыденных и употребительных слов.

Естественно, что как только компьютерная техника получила большие мощности, лингвисты начали создавать более масштабные корпуса. Уже в 90-х использовались собрания текстов, включавшие в себя сотни миллионов слов, а сегодня и миллиардные корпуса – это не редкость. В качестве примера можно привести Acquis Communautaire – базу данных Евросоюза, содержащую переводы европейского законодательства на 22 языка. В ней как раз около миллиарда слов.

Зачем нужны корпуса с практической точки зрения?

Тексты, входящие в корпус, обрабатывают при помощи специального ПО: анализируют, раскладывают на составляющие. Эти составляющие – часто встречающиеся слова и словосочетания, а также условия, при которых они используются (контекст) – стали основой для современных систем машинного перевода.

С точки зрения основ машинный перевод работает очень просто: система подключена к базе данных – корпусу (или к нескольким корпусам, об этом ниже) – и активно использует поиск по паттернам: словам и словосочетаниям. Находя в корпусе соответствующий по составу и условиям использования паттерн, автоматический переводчик выдаёт его в качестве результата.

Виды корпусов

Современная лингвистика выделяет три типа корпусов:

Монолингвальные корпусы. Они же «одноязычные». Это собрания текстов на одном и том же языке, которые используются для определения регистра (стилевых и жанровых особенностей), характерного для этого языка и типа текстов. Очень часто монолингвальные корпусы посвящены конкретной области деятельности: например, исследователь может взять собрание юридических текстов, вычленить из них все термины и клише – создать эталонный корпус, на который система будет опираться при переводе;
Сравнительные билингвальные корпусы. Они же «двуязычные». Собрание, в котором каждый текст представлен на нескольких языках: оригинал и несколько переводов (как правило, используются 2 перевода на 2 различных языка). Такие корпусы становятся основой для машинного перевода: они помогают определить соответствие терминов, частотных словосочетаний и т. д.;
Параллельные корпусы. Это сопоставленные по абзацам пары «оригинал-перевод»: исследователь берёт два текста и сводит их вместе.

Особую ценность для автоматизации профессионального перевода имеют тематические корпуса – например, корпус, сформированный Гранжером и Петч-Тайсоном (Granger and Petch-Tyson). Это собрание статей по биохимическим исследованиям, содержащее 500 000 слов.

Корпуса – это «фундамент» машинного перевода

Именно проработанность корпусов определяет качество работы машинного перевода. Например, Google Translate действительно хорошо переводит только в направлении с английского на другие языки и чуть хуже с других языков на английский. При этом система сравнительно плохо работает с парами языков, не включающими в себя английский вообще.

Это связано не с тем, что Google Translate – американская разработка. Причина заключается в том, что именно английский язык с точки зрения лексикографии и теории перевода более прост в обращении – это хорошо показал в своих работах Стиг Йоханссон (Stig Johansson), разрабатывавший корпусы норвежского и английского языков. Грубо говоря, машине проще всего понимать логику именно английского языка – соответственно, и качество перевода будет выше. Кроме того, корпусная лингвистика английского языка более развита.

В конечном счёте, именно теория корпусов позволила машинному переводу развиться до уровня, на котором он находится сейчас. И именно благодаря развитию корпусов, их масштабированию и расширению, качество перевода в автоматических системах продолжает повышаться.

Библиография:

Jeremy Munday, Introducing Translation Studies. Theories & Applications. / 3rd Edition. Taylor & Francis / London, 2014, pp 283-288