​​​В Институте вычислительных технологий СО РАН создают систему, берущую на себя многие операции по классификации и сравнительному анализу текстов, в том числе художественных.

Ученые-литературоведы не только читают, но и считают: количество слогов, слов и строк, повторов тех или иных выражений, оборотов, лексических конструкций, образов и тому подобного. Точно такие же действия необходимы для анализа любых иных текстов, будь то государственные документы или контент социальных сетей. Рисовать столбики на полях книг или вручную заполнять таблицы — занятие трудоемкое и утомительное, поэтому идея задействовать компьютерные технологии родилась едва ли не одновременно с самими компьютерами. В Институте вычислительных технологий СО РАН решили научить машину распознавать отдельные элементы — слова и предложения, их части и сочетания, ударения, стихотворные размеры и так далее — чтобы находить закономерности, не всегда заметные человеку. Это может быть полезно для изучающих поэзию литературоведов, для подготовки студентов-филологов, а в перспективе — для более широкого применения. 
 
У кого больше рифм к слову «любовь» — у Пушкина, Лермонтова или Блока? Яндекс не ответит, исследователь потратит несколько недель, специализированная компьютерная система — считанные секунды.
 
Во второй половине 1990-х годов создатель внутренней информационной сети СО РАН академик Юрий Иванович Шокин пригласил в новосибирский Академгородок из Красноярска профессора (сегодня члена-корреспондента РАН) Анатолия Михайловича Федотова, в круг научных интересов которого входили алгоритмы информационного поиска. Этот ученый заинтересовался задачей разработки методов анализа информации на естественных (то есть человеческих, а не машинных) языках. Сегодня подходы и заделы А. М. Федотова в ИВТ СО РАН реализует команда специалистов (в том числе студентов и аспирантов) под руководством доктора технических наук Владимира Борисовича Барахнина и кандидата филологических наук Ольги Юрьевны Кожемякиной — ученого-пушкиниста, защитившей диссертацию под руководством известного литературоведа доктора филологических наук, профессора Виктора Георгиевича Одинокова. Неудивительно, что структура и ритмика стиха стали первоначальным объектом комплексного анализа. 
 
Ольга Кожемякина«Для исследователя интересная задача — сравнивать стихотворную технику разных авторов или ее изменения в творчестве одного и того же поэта, — поделилась Ольга Кожемякина. — В рамках нашего проекта уже построена информационная модель, на ее основе организована работа команды, созданы и реализованы алгоритмы распознавания и классификации. В настоящее время нами реализован интерфейс филолога, воспринимающий определенный круг запросов для поиска и сравнения текстов и затем выдающий достаточно точный результат». О. Ю. Кожемякина пояснила, что речь идет о больших массивах данных, то есть полных корпусах творческого наследия многих авторов за все годы их жизни. «Мы обучали нашу систему на наследии пушкинской Болдинской осени, — рассказала Ольга Юрьевна. — Теперь же машина может оперировать всеми произведениями этого или другого поэта за долгие годы». 
 
Оказалось, что можно с помощью специальных алгоритмов загрузить в машину жанровые и стилистические особенности произведений, их структуру, научить информационную систему понимать смыслы и образы, классифицировать и группировать тексты по множеству параметров, которые еще лет пять назад казались понятными только человеческому мозгу. «Литературоведение как наука учитывает не только качественные, но и количественные характеристики произведений. Когда я писала диссертацию, — вспомнила Ольга Кожемякина, — то просматривала множество пушкинских стихов, вручную отмечая в них то или иное, чтобы потом сделать подсчеты и выводы на их основании. Сегодня стало ясно, что эту черновую работу можно спокойно препоручить машине». 
 
А какую именно? Найдет ли компьютер рифму, увидит ли ударения, если они не проставлены значками? Определит ли смысл омонимов, например, «мир» как «миръ» и «мир» как «мiръ»? Владимир Барахнин объясняет: «В базе данных нашей системы есть словарь академика Андрея Анатольевича Зализняка с ударениями. Бывают, разумеется, омографы — слова, совпадающие в своем написании, но имеющие разное звучание и значение: мука́ — му́ка, за́мок — замо́к и так далее. Даже в первой строке “Евгения Онегина” два слова акцентуируются неоднозначно: “Мой дядя самых чЕстнЫх прАвИл”. В таких случаях правильная акцентуация восстанавливается по аналогии — из строк без вариантов». То же самое с многозначными словами. «Разрабатываемый нами модуль анализа смысла смотрит (на основании методов машинного обучения) на окружение омографа, — рассказал Владимир Борисович. — Несколько упрощенно: если рядом есть “борьба”, “война” и т. п., то это антоним войны, а если “пир”, “пустить”, “крещеный” — то весь белый свет». 
 
Владимир Барахнин«Мы пока не задумывались над именем собственным нашего продукта, тем более о создании его товарного знака, — заметил Владимир Барахнин. — Наиболее точным названием можно считать такое: компьютерный обработчик текстов». Какие задачи он может решать сегодня? Ученый вспомнил, что в 1960-х годах известный филолог Кирилл Фёдорович Тарановский высказал предположение о связи формальных характеристик стиха с его жанром. Например, лермонтовское «Выхожу один я на дорогу…» написано пятистопным хореем. Затем «Вот бреду я вдоль большой дороги…» Тютчева, «Вот я выхожу, открытый взорам…» Блока, «Гул затих. Я вышел на подмостки» Пастернака… Раздумья о жизненном выборе от лица, заметим, движущегося героя. В то же время пятистопный хорей часто используется для создания бодрых песен (например, «Широка страна моя родная», «Три танкиста», «Катюша» и т. д.). Компьютерный обработчик текстов способен определить некоторые закономерности, в том числе чисто статистические, присущие применению пятистопного хорея в философской лирике и массовом песенном жанре. 
 
Ольга Кожемякина и Владимир Барахнин пояснили, что система, созданная и совершенствуемая их командой, доступна в онлайн-режиме, но принципиально не наделена функцией самостоятельного поиска текстов, а оперирует только теми, которые в нее заложены. «Да, она изначально так и задумана, — пояснила Ольга Кожемякина. — В интернете слишком много неточностей, а то и откровенных фейков. У нас же тексты загружаются из академических собраний, наиболее выверенные, со стопроцентно подтвержденным авторством и датировками. Общедоступный поисковик и инструмент исследователя — это абсолютно разные вещи».
 
«То, чего мы добились сегодня, уже может применяться на практике, — считает Владимир Барахнин. — В России немало филологов-стиховедов, кроме того, мы сотрудничаем с коллегами из Казахстана по анализу текстов на языке этой страны. Интересно попробовать нашу систему и в подготовке студентов филологических факультетов, изучающих структуру стиха». «Созданный нами интерфейс весьма нагляден, — добавила О. Кожемякина. — Он отображает все основные элементы и характеристики поэтической строки и произведения в целом: рифмы и их конструкции, размеры, ритмику и многое другое». Система автоматического анализа текстов умеет верно трансформировать дореформенную русскую орфографию в современную. Ученые ИВТ считают вполне вероятным в некоторой перспективе распространить свой проект и на решение проблемы максимально адекватного машинного перевода (до которого пока что далеко автоматизированным сервисам Google и других систем). Но универсальный киберфилолог — это пока нечто из области фантастики. 
 
«Мы не претендуем сегодня на решение таких задач, как определение авторства, подлинности и так далее, а также не планируем перенос возможностей нашей системы на сравнительное языкознание, — уточнила Ольга Кожемякина. — Наша цель немного иная: исследовать применительно к русской поэтической традиции связь метро-ритмических и строфических характеристик текстов с их жанрово-стилевыми особенностями. И тем самым подтвердить или опровергнуть (что менее вероятно) гипотезу Тарановского о влиянии первого на второе». 
 
Сегодняшнее состояние системы — бета-версия. Следующим этапом исследователи видят распространение ее аналитических возможностей на образы (в литературном понимании этого слова). «Образ в филологии — объект, традиционно определяемый и описываемый очень субъективно, — отметила О. Кожемякина. — Но если машину можно научить классифицировать тексты по жанрам и стилям, то почему бы не перейти на новый, более сложный и тонкий уровень? Это красивая и интересная задача — создать такие алгоритмы для анализа, которые позволят увидеть в литературном наследии взаимосвязи и закономерности, о которых мы раньше не догадывались». 
 
Андрей Соболевский

Источники

Алгоритмы для пушкиниста
Наука в Сибири (sbras.info), 29/04/2019
Алгоритмы для пушкиниста
Академгородок (academcity.org), 30/04/2019
Новосибирские ученые научили компьютер понимать поэзию
Официальный сайт г. Новосибирск (nsknews.info), 02/05/2019
Новосибирские ученые научили компьютер понимать поэзию
Seldon.News (news.myseldon.com), 02/05/2019
Новосибирские ученые научили компьютер понимать поэзию
Новости Новосибирска (novosibirsk-news.net), 02/05/2019
Понимать поэзию умеет программа, разработанная в ИВТ СО РАН
Newsib.ru, 02/05/2019
Ученые из Новосибирска создали интерфейс, понимающий поэзию
RuNews24 (runews24.ru), 03/05/2019
Ученые из Новосибирска создали интерфейс, понимающий поэзию
Seldon.News (news.myseldon.com), 03/05/2019
Ученые в Новосибирске научили компьютер понимать поэзию
Сибирь.Реалии (sibreal.org), 03/05/2019
Новосибирские ученые создали полезную для литературоведов систему
Аргументы и Факты (nsk.aif.ru), 03/05/2019
Новосибирские ученые создали полезную для литературоведов систему
Новости России (news-life.ru), 03/05/2019
В Институте вычислительных технологий СО РАН создают информационную систему для филологов
Сибирское отделение Российской академии наук (sbras.ru), 04/05/2019

Похожие новости

  • 17/07/2018

    В СО РАН создадут единую информационную систему с использованием технологии больших данных

    ​​​В Институте вычислительных технологий СО РАН считают: без единой системы передачи, хранения и обработки Big Data в Сибирском отделении невозможно развитие исследований на современном уровне. Общая коммуникационная сеть институтов Сибирского отделения формировалась с 1990-х годов по инициативе председателя СО РАН академика Валентина Афанасьевича Коптюга, поставившего академику Юрию Ивановичу Шокину при создании ИВТ СО РАН задачу информатизировать научную и организационную деятельность Отделения и институтов.
    732
  • 05/12/2017

    Цифровая экономика как предмет анализа ученых

    ​В новосибирском Академгородке начала работу XVI российская конференция "Распределенные информационно-вычислительные ресурсы. Наука - цифровой экономике" (DICR-2017). Представительный форум проходит на площадке Института вычислительных технологий СО РАН, научный руководитель которого, академик Юрий Иванович Шокин конкретизировал предмет обсуждений: "Речь идет о "кусочке" экономики, связанном с цифровыми технологиями, способном существенно помочь развитию всей страны".
    1575
  • 08/11/2018

    Научный руководитель ИВТ СО РАН академик Юрий Шокин награжден орденом Циолковского

    Академику Юрию Ивановичу Шокину на заседании Объединенного ученого совета по нанотехнологиям и информационным технологиям в ходе Общего собрания СО РАН вручена высшая награда Федерации космонавтики России – орден Циолковского.
    467
  • 09/07/2018

    Академику Шокину Юрию Ивановичу - 75 лет!

    ​​​​Юрий Иванович Шокин родился 9 июля 1943 года в г. Канск Красноярского края. В 1966 году окончил механико-математический факультет Новосибирского государственного университета. Далее в Вычислительном центре (ВЦ) СО АН СССР (г.
    748
  • 02/02/2018

    Ученые ИВТ СО РАН занимаются математическим моделированием в медицине

    ​Клеточные белки и их сети играют важную роль в нормальном функционировании организма. Биологи сравнивают каждую такую сеть с оркестром, а дирижером (с относительно недавнего времени) считают микроРНК — множество малых некодирующих молекул РНК, которые регулируют почти все процессы и химические реакции в организме человека.
    735
  • 07/12/2017

    В новосибирском Академгородке обсудили цифровую экономику

    ​В рамках российской конференции DICR-2017 состоялся круглый стол "Наука - цифровой экономике". Коворкинг-центр "Точка кипения" на 13-м этаже технопарка новосибирского Академгородка собрал как участников конференции, так и специально приглашенных экспертов из сферы высокотехнологичного бизнеса.
    1298
  • 14/10/2016

    Директор ГПНТБ СО РАН Андрей Гуськов - о своей работе и планах по развитию библиотеки

    Так получилось, что 50-летие открытия в Новосибирске одной из ведущих научных библиотек страны — ГПНТБ СО РАН — оказалось «праздником со слезами на глазах». В конце зимы не стало Бориса Степановича Елепова, бессменно руководившего ГПНТБ СО РАН на протяжении 36 лет.
    4126
  • 22/09/2017

    Между МСЦ РАН и ССКЦ СО РАН создан высокопроизводительный защищенный канал передачи данных

    Между двумя крупными российскими Центрами коллективного пользования – Межведомственным суперкомпьютерным центром Российской академии наук (МСЦ РАН, Москва) и Сибирским суперкомпьютерным центром Сибирского отделения РАН (ССКЦ СО РАН, Новосибирск) – создан высокопроизводительный защищенный канал передачи данных.
    1098
  • 30/10/2018

    ИВТ СО РАН открыл Центр научных ИТ-сервисов

    ​​Новое подразделение Института вычислительных технологий СО РАН создано для коллективного использования исследовательскими и инновационными организациями, сообщили в пресс-службе ИВТ СО РАН.  -Потребности научных институтов в работе с big data нарастают сегодня почти лавинообразно, и, чтобы их удовлетворить, мы реконструировали и модернизировали действующие мощности, — отметил возглавивший новую структуру первый заместитель ди⁠ректора ИВТ СО РАН кандидат физико-математических наук Андрей Юрченко.
    625
  • 16/04/2019

    Восемь ответов на частые вопросы о СНЦ ВВОД

    Зачем нужен Сибирский национальный центр высокопроизводительных вычислений, обработки и хранения данных — СНЦ ВВОД? Откуда придут деньги на его создание? Как этот проект связан с синхротроном СКИФ? С другими проектами «Академгородка 2.
    372