​​Насколько устойчивы традиции русской поэзии? Влияет ли размер стихотворения на содержание? Еще в 1960-х годах американский филолог-славист Кирилл Тарановский высказал предположение о связи формальных характеристик стиха с его жанром. Например, лермонтовское «Выхожу один я на дорогу…» написано пятистопным хореем. Те же размер и строфика характерны для «Вот бреду я вдоль большой дороги…» Федора Тютчева, «Вот я выхожу, открытый взорам…» Александра Блока, «Гул затих. Я вышел на подмостки» Бориса Пастернака. Эти стихотворения объединены общим жанром – раздумья идущего героя о жизненном выборе. К.Тарановский предложил методику определения семантики того или иного стихотворного размера, заключающуюся в исследовании не единичных употреблений, а традиции его жанрового и тематического использования, что предполагает анализ целых корпусов русских поэтических текстов. Естественно, такой подход требует автоматизации. И полвека спустя на помощь лингвистам пришли программисты – в Институте вычислительных технологий СО РАН, недавно ставшем Федеральным исследовательским центром, реализуется поддержанный Российским научным фондом проект «Разработка и реализация информационной системы многоуровневого исследования стихотворных текстов».

– Наша задача – освободить исследователей от рутинной работы, – рассказывает руководитель проекта доктор технических наук Владимир Барахнин. – Впервые будут предложены алгоритмы исследования взаимозависимости фонометрического и лексико-тематического уровней стихотворных текстов. Проще говоря, программа поможет выявить и провести количественный анализ связи смысловых ассоциаций со стихотворными размерами. Причем может быть исследован такой массив текстов, обработать который филологу-одиночке попросту не под силу. Автоматизация позволит расширить круг исследуемых авторов. Чтобы полностью автоматизировать анализ русской классической поэзии XIX-XX веков, необходимо составить метрические справочники к корпусу стихов того или иного поэта, содержащие сведения о системах стихосложения, размерах, каталектике (ритмических окончаниях стихов), строфике, метрической композиции стихотворений. Кроме того, понадобятся словари рифм, конкордансов (алфавитных перечней всех слов текста с указанием контекстов их употребления) и статистические словари слов и словосочетаний, употребляемых как отдельными поэтами, так и представителями определенных литературных направлений. Эти справочники и словари важны и для непосредственного изучения художественной техники поэта, и в качестве основы для проведения количественного анализа связей содержания текстов со стихотворными размерами.

Пытаясь перелопатить этот поэтический пласт, специалисты ИВТ неожиданно помогли сотрудникам библиотек – в ходе работы над проектом был создан алгоритм для перевода старой орфографии в современную. При оцифровке дореволюционного издания можно будет преобразовать текст в привычный для сегодняшнего читателя вид. Работа над программой осложнялась тем, что до середины XX века в русском языке не было официально утвержденной орфографии.

– До революции появлялись орфографические справочники, на их основании писались гимназические грамматики, но нормы не были кодифицированы. Декрет Совета народных комиссаров от 10 октября 1918 года «О введении новой орфографии» был весьма краток и описывал то, что требует изменения, причем далеко не полностью. Например, вышло так, что ижица (Ѵ) вообще не была упомянута, – поясняет В.Барахнин. – Для разработки программы за основу был взят «Справочник по старой орфографии русского языка» П.И.Давыдова, изучившего и проанализировавшего значительное количество источников и литературы, в том числе учебники, словари и справочники, изданные в старой орфографии до 1917 года. В этом справочнике изложен ряд изменений, которые можно разделить на две большие категории: правописание морфем (приставок, падежных окончаний) и употребление отдельных букв. На основе перечисленных в справочнике норм дореволюционного правописания был разработан переводчик.

Скажем, нужно выяснить современное написание слова «тростiю». Казалось бы, все просто: для этой группы окончание должно быть заменено на «-ью» – тростью. Однако такое же окончание может иметь и слово «эволюцiю».

алгоритм перевода.jpg

– В первом случае в результате применения правила перевода, мы получим верный результат – тростью. В ситуации со вторым словом получится несуществующая лексема – эволюцью. Наш алгоритм, проанализировав результат работы морфологического анализатора, увидит это и отменит примененное правило, после чего на втором этапе перевода произойдет замена устаревшей «i» на современную «и» и мы получим верный перевод – эволюцию, – рассказывает магистрант механико-математического факультета НГУ, инженер-программист ФИЦ ИВТ Елизавета Тагирова.
– Конечно, неизбежно останутся такие случаи, в которых эксперт должен будет решать, правильно сделан перевод или нет, – объясняет старший научный сотрудник ФИЦ ИВТ, кандидат филологических наук Ольга Кожемякина. – Например, в слове «концемъ» («концом» в современном виде) алгоритм видит окончание и не подозревает, что это какая-то устаревшая морфема. Он просто убирает «ъ» на конце, но этого недостаточно. Этот пример не попадает в какую-либо категорию написания морфем, участники проекта не нашли такого ни в одном справочнике. Предположительно написание объясняется тем, что когда-то «ц» обозначала мягкий звук. Чем старее текст, тем больше можно найти подобных примеров, требующих вмешательства эксперта в силу того, что не все правила кодифицированы: в печатном слове традиции и инерция намного сильнее, чем в живой речи. Мы допускаем, что на тот момент люди уже говорили «концом», а писали все еще в соответствии с традицией печатного слова. В культуре того времени печатные издания выступали эталоном.
Так что в данном случае компьютер заменяет не ученого, а, скорее, корректора. Пока программа еще не способна анализировать случаи, которых нет в справочниках. Но в случае спроса – например, со стороны библиотек с большим объемом дореволюционной литературы – ее возможно доработать.

Подобные проекты стимулируют междисциплинарное сотрудничество, традиционно характерное для институтов Сибирского отделения РАН.
– В чем главные достоинства данного проекта РНФ? Прежде всего он позволил интегрироваться в одну команду специалистам по информационным технологиям и филологам – профессиональному пушкинисту Ольге Юрьевне Кожемякиной, заведующей кафедрой фундаментальной и прикладной лингвистики Гуманитарного института Новосибирского государст-венного университета, доктору филологических наук Марии Кирилловне Тимофеевой, – подчеркивает В.Барахнин. – Я занимаюсь компьютерной лингвистикой с начала 2000-х годов, сотрудничал с коллегами из Казахстана, помогал им развивать методы обработки информации на казахском языке. Сейчас вместе с магистрантами НГУ из Узбекистана решаю аналогичную задачу для узбекского языка. Но наш проект помог мне осуществить давнюю мечту – реализовать в исследованиях интерес к русской классической поэзии, зародившийся еще в школе. В нашей области исследований не нужны ни специальное оборудование (прекрасные компьютеры есть в федеральном исследовательском центре), ни расходные материалы, поэтому второе преимущество проекта я вижу в том, что он дает возможность привлечь к работе достаточное количество аспирантов, причем самых разных специальностей: математиков, программистов, лингвистов. В нашей команде много недавних выпускников НГУ, и благодаря поддержке РНФ они могут сосредоточиться на исследованиях и подготовке к защите кандидатской диссертации, не думая ежедневно о хлебе насущном. Дополнительным бонусом становятся командировки и участие в конференциях. Фактически наша команда работает следующим образом: генерируют идеи более опытные участники – М.К.Тимофеева, О.Ю.Кожемякина, ваш покорный слуга – а их практической компьютерной реализацией занимается молодежь – аспиранты и магистранты.
Проект Российского научного фонда по многоуровневому исследованию стихотворных текстов рассчитан на 2019-2021 годы. За 2019-й кроме вышеупомянутого автоматического переводчика дореволюционных текстов с учетом морфологии слов были разработаны алгоритм автоматического определения стопности, определяющий, в частности, рифму в стихотворениях А.С.Пушкина с точностью в 95%, а также реализованный в виде веб-приложения алгоритм построения конкордансов. Надо сказать, это – тот случай, когда количество переходит в качество: радикальное увеличение объема анализируемого корпуса русских поэтических текстов должно вывести филологические исследования на новый качественный уровень. Первыми кандидатами на «поверку гармонии алгеброй» выбраны Алексей Константинович Толстой и Иннокентий Федорович Анненский. Именно их творчество подвергнется комплексному анализу с использованием разработанных ФИЦ ИВТ алгоритмов. 

Ольга Колесова

Похожие новости

  • 18/05/2020

    Андрей Гуськов: «Главные достижения ещё впереди»

    Государственная публичная научно-техническая библиотека Сибирского отделения Российской академии наук (ГПНТБ СО РАН) — один из ведущих научно-исследовательских центров страны, крупнейшая библиотека в России и за Уралом, государственный универсальный депозитарий Сибири, координационный и методический центр информационно- библиотечной системы РАН.
    795
  • 17/07/2020

    СО РАН направляет в Арктику большую норильскую экспедицию

    ​​Группа ученых из Российской академии наук всесторонне изучит экологическую среду территории и представит предложения и рекомендации по наилучшим природосберегающим решениям для деятельности промышленных компаний в Арктическом регионе.
    1402
  • 22/10/2018

    Сибирские ученые усовершенствовали методику проектирования гидравлических турбин

    В Институте вычислительных технологий СО РАН завершен очередной этап исследований, связанных с разработкой вычислительных технологий для расчета течения и проектирования проточных трактов гидротурбин. Статья об этом вышла в журнале «Structural and Multidisciplinary Optimization».
    725
  • 02/02/2018

    Ученые ИВТ СО РАН занимаются математическим моделированием в медицине

    ​Клеточные белки и их сети играют важную роль в нормальном функционировании организма. Биологи сравнивают каждую такую сеть с оркестром, а дирижером (с относительно недавнего времени) считают микроРНК — множество малых некодирующих молекул РНК, которые регулируют почти все процессы и химические реакции в организме человека.
    1206
  • 30/04/2019

    Алгоритмы для пушкиниста: в ИВТ СО РАН создают информационную систему для филологов

    ​​​В Институте вычислительных технологий СО РАН создают систему, берущую на себя многие операции по классификации и сравнительному анализу текстов, в том числе художественных. Ученые-литературоведы не только читают, но и считают: количество слогов, слов и строк, повторов тех или иных выражений, оборотов, лексических конструкций, образов и тому подобного.
    986
  • 05/04/2019

    На форуме «Городские технологии» обсудили цифровую экономику

    ​В рамках форума-выставки новых технологий и разработок «Городские технологии-2019» прошла секция, посвященная роли цифровой экономики в интересах власти и бизнеса. Модераторами выступили представители Института вычислительной математики и математической геофизики СО РАН — член-корреспондент РАН Сергей Игоревич Кабанихин и врио директора ИВМиМГ СО РАН доктор физико-математических наук, профессор РАН Михаил Александрович Марченко.
    1265
  • 12/02/2020

    Новый суперкомпьютерный центр принесет двойную эффективность

    ​Первый заместитель директора Института вычислительных технологий СО РАН кандидат физико-математических наук Андрей Васильевич Юрченко объяснил, почему проект Сибирского национального центра высокопроизводительных вычислений, обработки и хранения данных (СНЦ ВВОД) играет флагманскую роль в развитии всей сибирской науки.
    588
  • 10/05/2018

    Красноярские ученые смоделировали безопасный выход людей с крупных спортивных объектов

    Ученые Федерального исследовательского центра Красноярский научный центр СО РАН (ФИЦ КНЦ СО РАН) разработали сценарии штатного и аварийного выхода людей со стадионов Чемпионата мира по футболу 2018 и объектов Универсиады 2019.
    1112
  • 22/06/2020

    В ФИЦ ИВТ создают компьютерные модели распространения COVID-19

    ​16 июня 2020 года в рамках заседания общероссийского семинара «Информатика, управление и системный анализ» состоялась мини-конференция «Модели эпидемий и COVID-19», на которой сотрудниками Федерального исследовательского центра информационных и вычислительных технологий и компании «Биософт» были представлены результаты разработки компьютерного симулятора распространения коронавирусной инфекции, ориентированного на поддержку принятия управленческих решений на уровне отдельного региона.
    464
  • 19/09/2019

    Большие данные — большие вызовы

    ​В рамках VII Международного форума технологического развития «Технопром» обсудили возможности использования больших данных для науки, бизнеса и государства. В настоящий момент все они нуждаются в эффективных цифровых инструментах для решения широкого круга задач.
    881