Вы когда-нибудь пытались рассматривать тексты как случайные процессы и изучать их с помощью теории вероятностей? Ученые из Новосибирского государственного технического университета разработали математические алгоритмы анализа написанного, с помощью которых можно выявлять плагиат, исследовать древние рукописи, попытаться устанавливать контакт с внеземными цивилизациями и сделать загадку «Тихого Дона» еще загадочнее.

«Мне всё время было интересно, как устроены тексты, можно ли их описывать какими-то математическими методами. Когда я стал изучать теорию вероятностей, то понял, что текст нужно рассматривать как случайный процесс. Здесь используется простейшая модель, подразумевающая, что каждое последующее слово употребляется, независимо от предыдущих, с некоторыми вероятностями. Это не подходит для объяснения смысла текста, но зато хорошо описывает те закономерности, которые в нем наблюдаются», — рассказывает доцент кафедры высшей математики НГТУ кандидат физико-математических наук Артём Павлович Ковалевский.

 

Артём Ковалевский

 

Для начала нужно найти критерий, который является массовым. То есть что-то должно присутствовать в тексте и при этом не контролироваться на сознательном уровне. Автор может писать рассказ, все слова в котором начинаются на букву «м», или вести повествование от лица то одного персонажа, то другого — это как раз пример тех характеристик текста, которые внедряются сознательно. Здесь же нужна какая-то неконтролируемая статистика, которая называется авторским инвариантом.

Ее нашли инженер Тимофей Григорьевич Фоменко и филолог Валентина Поликарповна Фоменко (родители математика Анатолия Фоменко, родоначальника лженауки «Новая Хронология»). Они придумали, что надо считать служебные слова: частицы, предлоги и союзы. Количественное содержание этих служебных слов у каждого автора разное и обычно сознательно не контролируется, сохраняется как авторский инвариант писателя. Все исследование супруги Фоменко делали вручную, брали тома сочинений, анализировали тексты, считали там слова. 

«Затем пришла компьютерная эпоха, появилась возможность обрабатывать огромные объемы текстов, чем мы с моими студентами (Натальей Станиславовной Закревской и другими) и занялись. Мы описали это явление как случайный процесс, доказали соответствующие теоремы и создали специальную программу», — говорит Артём Ковалевский.

Алгоритм позволяет определять, действительно ли текст написал один автор или их было несколько. Ведь сейчас из разных «отрезков» чужих текстов клеятся не только рефераты студентов, но и некоторые дипломные работы, а иногда — и кандидатские, докторские диссертации. По признаку количества служебных слов можно отслеживать границы текста и выделять эти разнородные «куски».

Однако применять такие алгоритмы можно не только для отслеживания плагиата. Еще супруги Фоменко проанализировали произведения Михаила Шолохова и обнаружили, что там однородность «ломается». То есть с определенного момента в тексте начинает встречаться совершенно другое число служебных слов. Когда полученные результаты проверили новосибирские исследователи, оказалось, что это происходит не только с «Тихим Доном», но и с «Поднятой целиной».

«Когда я пробовал изучить этот эффект, понять, что же происходит с «Поднятой целиной» в середине, я перечитал книгу и выяснил, что читать ее с момента «слома» дальше стало просто чудовищно неинтересно. Писатель дописывал ее спустя много лет, и у него сильно изменился стиль, — говорит ученый. — Рукописи обеих этих книг найдены, вроде бы по ним доказали, что все писал один человек. То ли Шолохов сам так изменился, то ли на раннем этапе творчества использовал тексты неизвестного автора — мы не знаем. Но у него наблюдается такое изменение этих характеристик, какого не было ни у одного из других авторов».

Следующий способ, разработанный новосибирскими исследователями (он действует уже на маленьких текстах), — анализ числа разных слов. Например, человек пишет всю жизнь про математику. Казалось бы, вся суть его открытия сосредоточена в формулах, лексические единицы здесь много не значат, но чем дальше, тем больше он использует новых слов. Кроме того, в любом тексте, если только он не создан искусственно, всегда очень много лексических единиц, которые встретились только один раз. 

«Мы с Натальей Закревской стали строить математическую модель, потом произошел перерыв, я не знал, как двигаться дальше. В 2014 году нам с Михаилом Георгиевичем Чебуниным удалось доказать теорему, описывающую, как должно себя вести это число разных слов с ростом объема текста», — говорит Артём Ковалевский.

 

Фрагмент манускрипта Войнича

 

Если откладывать число разных слов по длине текста, то получается возрастающая линия. Это характеризует скорость увеличения словаря автора с ростом объема написанного. Если предположить, что у кого-то словарь ограничен (чего на самом деле не бывает), то в какой-то момент эта кривая выходила бы на насыщение и дальше оставалась бы постоянной. А если соединить два текста разных авторов, получилась бы изломанная кривая: она растет сначала с одной скоростью, а потом с другой. Это опять же дает способ проверки на плагиат. Алгоритм сразу улавливает излом, математически его оценивает и обозначает, что здесь склеены разные тексты.

«Если «Антиплагиат» работает как поисковая система и сравнивает текст с уже известными, то мы можем, не зная источников, определить, что написанное состоит из нескольких разнородных частей», — говорит ученый.

С помощью этого подхода было бы интересно анализировать и различные древние манускрипты. Например, рукопись Войнича — известное произведение, которое никто не может расшифровать. Можно посмотреть, удовлетворяет ли оно требованиям к росту словаря. Для этого не надо понимать, что именно написано, нужно всего лишь видеть, одинаковые это лексические единицы или разные, появилось новое слово или нет.

Манускрипт Войнича, — иллюстрированный кодекс, написанный, предположительно, в первой половине XV века неизвестным автором на неизвестном языке с использованием неизвестного алфавита. Рукопись хранится в собрании библиотеки Йельского университета (США).

Гипотетически такую систему можно использовать и при приеме сигналов из космоса. Предположим, что мы хотим установить контакт с внеземными цивилизациями. Нам интересны прежде всего те из них, которые умеют разговаривать словами. Они, как и мы, должны иметь бесконечное число слов, и, соответственно, рост словаря с возрастанием длины текста должен подчиняться той же закономерности. Тогда мы сможем выделять их сигнал на фоне множества разных шумов, издаваемых другими, неразумными объектами. 

«Разумеется, эта система еще несовершенна, ее можно и нужно улучшать. Мы хотим построить такую модель, которая объяснит всё сразу: и число разных слов, и число слов, встретившихся один раз, то есть все совокупности статистик текста, которые мы наблюдаем, — говорит Артём Ковалевский. — Кроме того, хочется сделать большое исследование на разных языках. Я думаю, что на маленьких текстах (порядка одной-двух тысяч слов) всё будет хорошо работать, а вот в более длинных могут появиться какие-то особенности, и это дополнительно надо изучать. Мне хотелось бы пригласить лингвистов, математиков, программистов принять участие в этом исследовании».

Диана Хомякова

Фото предоставлено исследователем (1) и из открытых источников (2)

Источники

Цифра говорит
Наука в Сибири (sbras.info), 02/04/2018
Цифра говорит
Академгородок (academcity.org), 03/04/2018

Похожие новости

  • 12/10/2017

    Мероприятия V Фестиваля науки в Новосибирской области будут проходить на 30 различных площадках

    12 октября состоялся брифинг о проведении V Фестиваля науки в Новосибирской области. О программе Фестиваля журналистам рассказали: министр образования, науки и инновационной политики Новосибирской области Сергей Александрович Нелюбов, директор Государственной публичной научно-технической библиотеки СО РАН, Андрей Евгеньевич Гуськов и проректор по научной работе НГУЭУ Александр Владимирович Ревнивых.
    1080
  • 22/04/2016

    23 апреля в НГУ пройдет открытая акция «Контрольная сумма»

    Новосибирский государственный университет проводит 23 апреля ежегодную открытую акцию по проверке знаний школьной математики «Контрольная сумма». В этом году контрольную напишут в четырех городах России.
    1195
  • 13/10/2016

    X Всероссийская научная конференция молодых ученых «Наука. Технологии. Инновации»

    5–9 декабря 2016 г. в Новосибирском государственном техническом университете при поддержке Министерства образования и науки РФ в рамках Программы развития деятельности студенческих объединений пройдет Х Всероссийская научная конференция молодых ученых "Наука.
    2120
  • 15/02/2018

    Международная научно-практическая конференция «Семиотическое пространство языка. Знаки и смыслы»

    ​Международная научно-практическая конференция "Семиотическое пространство языка. Знаки и смыслы" проходит в НГТУ 14-15 февраля. Основные направления конференции: Лингвосемиотика потребностей.
    590
  • 03/11/2017

    Большой этнографический диктант пройдет в Новосибирске на 10 площадках

    ​​3 ноября 2017 года – единый день проведения Всероссийской просветительской акции «Большой этнографический диктант». Диктант пройдет на десяти площадках г. Новосибирска и области:  1.
    1375
  • 28/03/2018

    Лишь каждый пятый новосибирец написал контрольную по математике на «пятерку»

    Всего в контрольной по математике «Что и требовалось доказать» приняли участие 22 тысячи человек, об этом «Вестям» сообщила региональный представитель компании «Яндекс» Наталья Брус. Лишь каждый пятый новосибирец написал контрольную по математике на «пятерку», об этом «Вестям» сообщила региональный представитель компании «Яндекс» Наталья Брус.
    269
  • 24/11/2017

    Подведены итоги конкурса переводчиков научно-технической литературы

    ​В период с 4 сентября по 22 ноября 2017 года прошел Конкурс переводчиков научно-технической литературы по электроэнергетической и электротехнической тематикам на базе ведущих технический вузов страны с целью повышения уровня знаний иностранного языка и технической терминологии в области электроэнергетики и электротехники, а также выявления и поощрения участников, показавших наилучшие результаты.
    588
  • 03/04/2018

    Ученые НГТУ разработали новое программное обеспечение для поиска нефти в Арктике

    Математики Новосибирского государственного технического университета (НГТУ) создали программное обеспечение нового поколения для обработки данных разведки запасов углеводородов на арктическом шельфе и в море, сообщил проректор НГТУ по научной работе Алексей Вострецов.
    447
  • 14/03/2017

    «Что и требовалось доказать»: в НГУ завершилась всероссийская контрольная по математике

    Уже в третий раз Яндекс проводит ежегодную всероссийскую контрольную по математике «Что и требовалось доказать» в России, Белоруссии, Украине, Казахстане и других странах. В Новосибирском государственном университете она прошла 11 марта.
    1022
  • 07/03/2017

    На разных площадках Новосибирска Тотальный диктант напишут более 7 тысяч человек

    Суперплощадка на тысячу человек, робот-диктатор и старые курсы о главном. Организаторы Тотального диктанта на встрече в пресс-центре ТАСС рассказали, что ждет новосибирцев на ежегодной акции по проверке грамотности.
    1130