​Сотрудники Института вычислительных технологий СО РАН разработали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию практически без участия человека. Алгоритм может выполнять рутинную работу редакторов и дает исследователям дополнительные инструменты для анализа текстов. 

 Представьте, что вы решили оцифровать, а затем опубликовать книгу, которая была издана в дореволюционное время. Новейшие мощные сканеры, способные работать без участия человека, сами перелистывают страницы, современное программное обеспечение преобразовывает отсканированные страницы в текст, но он будет, естественно, в исходной старой орфографии. Это неудобно для потенциальной обработки документа, ведь большинство алгоритмов автоматического анализа работают только с произведениями в современной орфографии. Для этого и нужна система автоматического приведения текста в привычный для читателя вид.

Существует несколько подходов к преобразованию текстов из одной орфографии в другую: основанный на правилах, статистический, основанный на машинном обучении, нейронный машинный перевод, а также гибридный, который может сочетать перечисленные выше методы. Так как орфография — это совокупность четких правил написания слов, на основе которых может быть создан алгоритм перевода, исследователи выбрали правиловый подход. Всё усложняется тем, что до середины XX века орфография русского языка не была официально утверждена. «До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года «О введении новой орфографии» был весьма краток, и описывал то, что требует изменения, далеко не полностью. Например, вышло так, что ижица (Ѵ) вообще не была упомянута», — рассказывает ведущий научный сотрудник ИВТ СО РАН доктор технических наук Владимир Борисович Барахнин.


 

Примеры основных правил, заложенных в работу переводчика 

   Примеры основных правил, заложенных в работу переводчика

 

Для разработки программы за основу был взят «Справочник по старой орфографии русского языка» П. И. Давыдова, изучившего и проанализировавшего значительное количество источников и литературы, в том числе учебники, словари и справочники, изданные в старой орфографии до 1917 года. В этом справочнике изложен ряд изменений, которые можно разделить на две большие категории: правописание морфем (приставок, падежных окончаний) и употребление отдельных букв. Кто-то может предположить, что достаточно заменить устаревшие буквы на современные и убрать твердые знаки в конце слов, но всё гораздо сложнее, потому что есть случаи, в которых правописание морфем отличается от нынешнего. Именно на основе перечисленных в справочнике норм дореволюционного правописания — с учетом послереволюционных новаций и был разработан переводчик.

В старом правописании морфем можно выделить несколько групп слов. Каждая из них характеризуется используемой устаревшей морфемой и морфологическими признаками, которыми обладают лексемы из этого класса. Исследователи сопоставили устаревшее и современное написание для каждой из групп и, выявив закономерности между ними, описали правила перевода, лежащие в основе программы. Изначальная идея состояла в том, что алгоритм должен определить, принадлежит ли входное слово к одной из групп, то есть найдена ли нужная морфема в слове и обладает ли оно соответствующими морфологическими признаками. Если это так, то к лексеме применяется правило перевода для той группы, к которой она относится. В противном случае слово остается без изменений. Чтобы осуществить это, необходим алгоритм морфологического анализа, но в процессе тестирования различных морфологических анализаторов для русского языка выяснилось, что они плохо справляются со словами в дореформенной орфографии. Поэтому необходим такой алгоритм перевода, который сможет обойти ошибки, допускаемые анализатором. 

 

Обобщенные различия между старой и новой орфографией 

   Обобщенные различия между старой и новой орфографией

 

Так родилась следующая идея: алгоритм предполагает, что входное слово принадлежит к той или иной группе только по одному из двух признаков — по наличию устаревшей морфемы. Если принадлежность установлена, алгоритм осуществляет перевод в соответствии с правилом для группы. Это приводит либо к успешному результату — слово переведено, либо к получению несуществующей или новой лексемы. Получившееся слово передается морфологическому анализатору. В первом случае морфологические признаки будут соответствовать тем, что указаны для определенной группы. Выполнение этого условия трактуется алгоритмом как успех — перевод выполнен. Во втором же случае признаки будут отличаться, если получилась новая словоформа, либо анализатор предоставит информацию о том, что разбор был сделан «эвристическим» способом (не по словарю, так как несуществующих слов в нем нет). При выполнении одного из этих условий, алгоритм возвращает прежнее написание, потому что входное слово на самом деле не принадлежит ни одной из групп. Это и есть первый этап перевода — исправление морфем. По его завершении, программа переходит к этапу замены устаревших букв. В качестве алгоритма морфологического анализа была выбрана библиотека pymorphy, разработанная на языке программирования Python. Она может анализировать слова и склонять их по заданным грамматическим характеристикам. Этот корпус опирается на данные словаря OpenCorpora (большой базы данных текстов на русском языке, которые уже разобраны усилиями добровольцев), а для незнакомых слов строит гипотезы.

Работу алгоритма можно рассмотреть на примере. Возьмем одну из групп: существительные III склонения в творительном падеже с окончанием -. Например, тростiю. Окончание -iю в этом слове должно быть заменено на -ью. Однако не только относящиеся к этой группе слова могли иметь такое окончание, например, эволюцiю. «В первом случае в результате применения правила перевода, мы получим верный результат — тростью. В ситуации со вторым словом получится несуществующая лексема — эволюцью. Наш алгоритм, проанализировав результат работы морфологического анализатора, увидит это и отменит примененное правило. После чего на втором этапе перевода произойдет замена устаревшей i на современную и, и мы получим верный перевод — эволюцию, — рассказывает магистрантка механико-математического факультета НГУ, инженер-программист ИВТ СО РАН Елизавета Тагирова. — Конечно, неизбежно останутся такие случаи, в которых эксперт должен будет решать, правильно сделан перевод или нет».


 

Схема алгоритма перевода 

   Схема алгоритма перевода

 

При тестировании алгоритма исследователи обнаружили в дореволюционном учебнике физики еще один интересный случай — слово концемъ (концом в современном виде). Алгоритм видит окончание и не подозревает, что это какая-то устаревшая морфема. Он просто убирает ъ на конце, но этого недостаточно. Этот пример не попадает в какую-либо категорию написания морфем, авторы не нашли такого ни в одном справочнике. Предположительно  написание объясняется тем, что когда-то ц обозначала мягкий звук. Чем старее текст, тем больше можно найти подобных примеров, требующих вмешательства эксперта в силу того, что не все правила кодифицированы. Как объясняет старший научный сотрудник ИВТ СО РАН кандидат филологических наук Ольга Юрьевна Кожемякина, в печатном слове традиции и инерция намного сильнее, чем в живой речи: «Мы допускаем, что на тот момент люди уже говорили концом, а писали всё еще в соответствии с традицией печатного слова. В культуре того времени печатные издания выступали эталоном».

Если говорить о применении алгоритма, то он создан с целью заменить не эксперта, а скорее корректора, для работы с большими объемами текстов. Сегодня программа еще не способна правильно анализировать случаи, которых нет в справочниках. Дальнейшая задача — доработать ее так, чтобы такие случаи были выявлены и получили решение. Сделать это можно несколькими способами. Во-первых, проанализировать различные источники, выявить закономерности написания и дополнить существующий алгоритм новыми правилами. Этот вариант требует огромных временных и человеческих ресурсов, а также серьезной филологической оценки. Альтернативный вариант — использовать методы машинного обучения для сложных случаев, которые нигде и никак не формализованы, но могут быть учтены при обучении на корпусе параллельных текстов, в котором каждому документу в современной орфографии сопоставлен аналогичный, но в дореволюционном виде. Однако такой корпус на сегодняшний день пока еще не создан. «Если наш проект будет востребован массовыми пользователями в лице, например, библиотек с большим объемом дореволюционных фондов, то создание такого корпуса — задача ближайшего будущего», — говорит Елизавета Тагирова.

Работа выполнена при поддержке гранта РНФ (проект 19-18-00466).

Мария Фёдорова

Фото Александры Федосеевой, слайды предоставлены исследователями

Источники

Сибирские ученые научились переводить старую орфографию в современную
National Geographic (nat-geo.ru), 25/03/2020
Ученые создали алгоритм почти автоматического перевода дореволюционных изданий
The world news (theworldnews.net), 25/03/2020
Ученые создали алгоритм почти автоматического перевода дореволюционных изданий
Дело (delo-kira.ru), 25/03/2020
В Новосибирске создали алгоритм для автоматического перевода дореволюционных книг
ТАСС, 25/03/2020
В России создали алгоритм для перевода старой орфографии в современную
Pcnews.ru, 25/03/2020
Ученые создали алгоритм почти автоматического перевода дореволюционных изданий
Seldon.News (news.myseldon.com), 25/03/2020
Ученые создали алгоритм почти автоматического перевода дореволюционных изданий
Спутник Новости (news.sputnik.ru), 25/03/2020
Сибирские ученые создали алгоритм для перевода старой орфографии в современную
Популярная механика (popmech.ru), 25/03/2020
В России создали алгоритм для перевода старой орфографии в современную
Новости@Rambler.ru, 25/03/2020
Убирает твердые знаки и яти: ученые из Новосибирска сделали программу, которая переводит старинные книги
Комсомольская правда (nsk.kp.ru), 25/03/2020
Сибирские ученые разработали алгоритм почти автоматического перевода дореволюционных изданий на современную русскую орфографию
Новосибирские новости (nscn.ru), 25/03/2020
Сибирские ученые создали алгоритм для перевода старой орфографии в современную
Наука в Сибири (sbras.info), 25/03/2020
Ученые разработали систему перевода дореволюционных изданий на современную орфографию
Русский мир (russkiymir.ru), 25/03/2020
В Новосибирске создали алгоритм автоматического перевода старых книг
Dni24.com, 25/03/2020
Ученые разработали систему перевода дореволюционных изданий на современную орфографию
Seldon.News (news.myseldon.com), 25/03/2020
В Сибири создали алгоритм для перевода дореволюционных изданий
Novostival.ru, 25/03/2020
В Сибири создали алгоритм для перевода дореволюционных изданий
Bisnes-sodeistvie.ru, 25/03/2020
В Сибири создали алгоритм для перевода дореволюционных изданий
Российская газета. СФО (rg.ru), 25/03/2020
В Сибири создали алгоритм для перевода дореволюционных изданий
Seldon.News (news.myseldon.com), 25/03/2020
В Новосибирске создали алгоритм автоматического перевода старых книг
Russia24.pro, 25/03/2020
В Новосибирске создали алгоритм автоматического перевода старых книг
News-Life (news-life.pro), 25/03/2020
В Сибири создали алгоритм для перевода дореволюционных изданий
Mukola.net, 25/03/2020
Сибирские ученые научились переводить старую орфографию в современную
Российский научный фонд (рнф.рф), 26/03/2020
В Сибири создали алгоритм для перевода дореволюционных изданий
Пульс Live (pulslive.com), 26/03/2020
Сибирские ученые создали систему перевода дореволюционных текстов на современный язык
Seldon.News (news.myseldon.com), 26/03/2020
Сибирские ученые создали систему перевода дореволюционных текстов на современный язык
Тайга.инфо (tayga.info), 26/03/2020
Сибирские ученые научились переводить старую орфографию в современную
Российский научный фонд (rscf.ru), 26/03/2020
В Сибири создали алгоритм для перевода дореволюционных изданий
Newtvnews.ru, 26/03/2020
Сибирские ученые создали систему перевода дореволюционных текстов на современный язык
Russia24.pro, 26/03/2020
В ИВТ СО РАН создали алгоритм для перевода старой орфографии в современную
Научная Россия (scientificrussia.ru), 27/03/2020
В ИВТ СО РАН создали алгоритм для перевода старой орфографии в современную
1k.com.ua, 27/03/2020
Создан переводчик с дореволюционного русского языка
Дилетант (diletant.media), 29/03/2020
Ученые создали переводчик с дореволюционного русского языка
Нож (knife.media), 28/03/2020
Сибирские ученые создали систему перевода старой орфографии в современную
The world news (theworldnews.net), 30/03/2020
Сибирские ученые создали систему перевода старой орфографии в современную
ИА Regnum, 30/03/2020
Сибирские ученые создали систему перевода старой орфографии в современную
Seldon.News (news.myseldon.com), 30/03/2020
Сибирские ученые создали систему перевода старой орфографии в современную
Новости@Rambler.ru, 30/03/2020
Сибирские ученые создали алгоритм для перевода старой орфографии в современную
Сибирское отделение Российской академии наук (sbras.ru), 30/03/2020
В России создали алгоритм для перевода старой орфографии в современную
Goroday (goroday.ru), 30/03/2020
Появился переводчик с дореволюционного русского языка на современный
Playboy (playboyrussia.com), 30/03/2020
В России создали алгоритм для перевода старой орфографии в современную
Яндекс.Новости (yandex.ru/news), 02/04/2020

Похожие новости

  • 18/05/2020

    Андрей Гуськов: «Главные достижения ещё впереди»

    Государственная публичная научно-техническая библиотека Сибирского отделения Российской академии наук (ГПНТБ СО РАН) — один из ведущих научно-исследовательских центров страны, крупнейшая библиотека в России и за Уралом, государственный универсальный депозитарий Сибири, координационный и методический центр информационно- библиотечной системы РАН.
    517
  • 16/04/2019

    Восемь ответов на частые вопросы о СНЦ ВВОД

    Зачем нужен Сибирский национальный центр высокопроизводительных вычислений, обработки и хранения данных — СНЦ ВВОД? Откуда придут деньги на его создание? Как этот проект связан с синхротроном СКИФ? С другими проектами «Академгородка 2.
    1102
  • 30/04/2019

    Алгоритмы для пушкиниста: в ИВТ СО РАН создают информационную систему для филологов

    ​​​В Институте вычислительных технологий СО РАН создают систему, берущую на себя многие операции по классификации и сравнительному анализу текстов, в том числе художественных. Ученые-литературоведы не только читают, но и считают: количество слогов, слов и строк, повторов тех или иных выражений, оборотов, лексических конструкций, образов и тому подобного.
    907
  • 14/10/2016

    Директор ГПНТБ СО РАН Андрей Гуськов - о своей работе и планах по развитию библиотеки

    Так получилось, что 50-летие открытия в Новосибирске одной из ведущих научных библиотек страны — ГПНТБ СО РАН — оказалось «праздником со слезами на глазах». В конце зимы не стало Бориса Степановича Елепова, бессменно руководившего ГПНТБ СО РАН на протяжении 36 лет.
    5307
  • 22/07/2019

    Археолог из Новосибирска получила грант исследовательских проектов РНФ

    ​Заместитель директора научно-образовательного центра «Новая археология» Гуманитарного института НГУ, кандидат исторических наук Светлана Шнайдер победила в конкурсе на получение грантов РФН по мероприятию «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов.
    1045
  • 30/10/2018

    ИВТ СО РАН открыл Центр научных ИТ-сервисов

    ​​Новое подразделение Института вычислительных технологий СО РАН создано для коллективного использования исследовательскими и инновационными организациями, сообщили в пресс-службе ИВТ СО РАН.  -Потребности научных институтов в работе с big data нарастают сегодня почти лавинообразно, и, чтобы их удовлетворить, мы реконструировали и модернизировали действующие мощности, — отметил возглавивший новую структуру первый заместитель ди⁠ректора ИВТ СО РАН кандидат физико-математических наук Андрей Юрченко.
    1050
  • 09/07/2018

    Академику Шокину Юрию Ивановичу - 75 лет!

    ​​​​Юрий Иванович Шокин родился 9 июля 1943 года в г. Канск Красноярского края. В 1966 году окончил механико-математический факультет Новосибирского государственного университета. Далее в Вычислительном центре (ВЦ) СО АН СССР (г.
    1229
  • 02/02/2018

    Ученые ИВТ СО РАН занимаются математическим моделированием в медицине

    ​Клеточные белки и их сети играют важную роль в нормальном функционировании организма. Биологи сравнивают каждую такую сеть с оркестром, а дирижером (с относительно недавнего времени) считают микроРНК — множество малых некодирующих молекул РНК, которые регулируют почти все процессы и химические реакции в организме человека.
    1151
  • 29/06/2020

    Алгоритмы гармонии. На помощь лингвистам пришли программисты

    ​​Насколько устойчивы традиции русской поэзии? Влияет ли размер стихотворения на содержание? Еще в 1960-х годах американский филолог-славист Кирилл Тарановский высказал предположение о связи формальных характеристик стиха с его жанром.
    519
  • 19/05/2020

    Мнение: Актуальные научные вызовы эпохи коронавируса

    Обрушившаяся на человеческое сообщество пандемия коронавируса и произошедшие в первые три месяца 2020 года глобальные изменения сложившегося образа жизни в ближайшее время станут (и уже стали) центром мировых дискуссий: философских, политических, исторических, экономических и гуманитарных.
    585