​Компьютерные лингвисты Томского госуниверситета (ТГУ) создали программу, которая на русском языке генерирует заголовки новостей, а в перспективе и сама будет писать новости. Как научить машину анализировать текст, какой специалист получается после "скрещивания" филолога и айтишника и зачем классической филологии Big Data – в материале РИА Томск.

Извлечение смысла

В специальное окно загружается текст готовой новости – и через несколько секунд программа выдает свой вариант заголовка к ней. Максимально беспристрастный, без интригующих формулировок и оценочных суждений... Магистрам (а теперь уже выпускникам) программы "Компьютерная и когнитивная лингвистика" ТГУ понадобился год, чтобы создать Web-сервис по извлечению фактов из текстов и автоматическому генерированию новостей.

Разработчики (а проект реализуется совместно с компанией "Элекард-Мед") уверены: сервис, основанный на технологии машинного обучения, будет востребован в современных информационных агентствах.

"На первом этапе мы решали задачу реферирования текста (то есть извлечения из него фактов и их связей) – нужно было научить программу генерировать заголовок, с чем мы успешно справились. Следующий этап – писать лид (первый абзац новости), а затем – новость полностью", – рассказывает Зоя Резанова, заведующая лабораторией когнитивных исследований языка ТГУ, руководитель МП "Компьютерная и когнитивная лингвистика".

Надо сказать, что этот рынок становится очень конкурентным, но прототипы пока есть только англоязычные. На русский язык их просто так не переложишь – грамматика отличается коренным образом: у нас существительные и прилагательные склоняются, глаголы спрягаются, порядок слов гораздо более произвольный...

Поэтому для обучения машины мало было написать программу и загрузить в нее набор данных (десятки тысяч новостей) – нужны были специалисты, которые разбираются в лингвистических тонкостях, то есть в том, как устроен язык вообще, каков механизм порождения речи отдельным человеком.

"Программист, который приходит к нам в магистратуру, не станет лингвистом – точно также, как филолог не станет специалистом по Big Data. Но это будет специалист, который умеет работать на стыке дисциплин. Междисциплинарность – один из главных трендов образования", – подчеркивает Зоя Резанова.

Новые лингвисты

Зоя Резанова – классический представитель университетской "старой школы": доктор филологических наук, профессор, завкафедрой общего, славяно-русского языкознания и классической филологии ТГУ. Но фразы "Вот раньше было!.." от нее не услышишь, наоборот, Резанова восхищается возможностями, которые получила современная лингвистика.

"Лингвистика в начале XXI века абсолютно изменила свой облик: новые технологии помогли на новый уровень вывести исследования. Но родились и междисциплинарные направления для решения социальных задач. Поэтому, создавая два года назад новую магистерскую программу на базе САЕ "Институт человека цифровой эпохи", мы концептуально объединили два направления – когнитивную лингвистику и компьютерную лингвистику", – говорит Резанова.

Когнитивная лингвистика исследует то, как язык взаимодействует с ментальными механизмами. Среди основных дисциплин, которые изучают магистранты, – "Обработка лингвистической информации: язык и мозг", "Когнитивное моделирование в PR-деятельности", "Статистические методы в гуманитарных исследованиях", "Когнитивная психология".

Сейчас в магистратуре обучаются 3 кандидата наук – 2 с исторического факультета и 1 с философского. Историки и философы тоже работают с текстами, и математические алгоритмы дают новые возможности для их обработки. В нынешний набор пришли также два информатика, желающие научиться работать с текстами.
Зоя Резванова поясняет:

"Язык – это не то, что написано, и не то, что проговаривается. Он рождается в нашем сознании, сознание существует в нашем теле, а наше тело и личность – в природном и социокультурном аспекте. И каждый фактор влияет на порождение речи.

Мы проводим массу поведенческих экспериментов, чтобы лучше узнать сущность и устройство русского языка. Например, в Лаборатории лингвистической антропологии исследуется процесс чтения (с помощью датчика отслеживания движения глаз), чтобы понять, как мы обрабатываем тексты".

Другое направление – компьютерная лингвистика – помогает осмыслить изменения в современных коммуникациях. И, может быть, сделать более качественным диалог "человек – машина". На программе изучают как теорию русского языка, так и языки программирования (Python и R).

"Анализ больших данных – это абсолютный тренд, но огромное количество информации – это языковая информация, следовательно, способ проникновения в эту информацию – это анализ текстов. Необходимо создать эффективные механизмы извлечения информации из текста без участия человека, автоматические анализаторы", – говорит Зоя Резанова.

Например, на форуме U-NOVUS команда магистратуры разработала систему поиска специалистов для решения отраслевых задач в нефтегазовой промышленности. По данным студенческих публикаций – статей, курсовых, выпускных работ – алгоритм может находить молодого специалиста, который исследовал конкретную проблему (скажем, низкую эффективность экспорта или низкий уровень энергосбережения) и может помочь устранить ее.

Работу команды магистратуры на форуме U-NOVUS высоко оценили сотрудники "Газпромнефть НТЦ", увидев возможность практического применения алгоритма при подборе кадров.

Следующая базовая задача – не просто заменить человека в извлечении информации, но и генерировать эту информацию, создавать вторичные тексты – то, что магистранты ТГУ делают для информационных агентств. Осмысленный ответ ботов, скажем, из банка – это тоже технологии компьютерной лингвистики. И недалек тот день, когда благодаря им боты научатся распознавать интонацию, эмоции и сами говорить, как люди.

Елена Тайлашева

Завлабораторией когнитивных исследований языка ТГУ Зоя Резанова о современной лингвистике

Похожие новости

  • 27/05/2019

    Научно-технический конкурс «Первый шаг»: программа мероприятий в Томске

    ​29-30 мая в Томске пройдет финал Всероссийского молодежного научно-технического конкурса разработок в области кинопроизводства, телерадиовещания и телекоммуникаций «Первый шаг» среди студентов технических специальностей вузов.
    610
  • 25/01/2018

    Лингвисты научат компьютеры общению с людьми

    ​В Томском политехническом университете впервые состоялась защита выпускных квалификационных работ слушателей программы профессиональной переподготовки «Компьютерная лингвистика». Среди первых выпускников программы — студенты-лингвисты томских вузов, сотрудники ТПУ, опытные программисты.
    808
  • 21/05/2019

    В Томске пройдет финал всероссийского научно-технического конкурса «Первый шаг»

    29-30 мая в Томске пройдет финал Всероссийского молодежного научно-технического конкурса разработок в области кинопроизводства, телерадиовещания и телекоммуникаций "Первый шаг" среди студентов технических специальностей вузов, передает ГТРК "Томск".
    481
  • 24/08/2017

    Приложение от международной школы английского языка появилось в Новосибирске

    В июле 2017 года языковая школа для взрослых EF выпустила приложение для смартфонов, которое работает и в режиме офлайн. У новосибирских студентов появилась возможность проходить курс по программе в любом месте и в любое время, даже без доступа к интернету.
    781
  • 06/09/2017

    ТПУ проведет Школу научной коммуникации «Эффективная научная деятельность: как стать успешным ученым»

    ​Томский политехнический университет 13-15 сентября проведет Школу научной коммуникации «Эффективная научная деятельность: как стать успешным ученым», которая объединит около 200 российских ученых.
    1628
  • 01/02/2019

    «Мобильные полки» от библиотеки ТГУ появятся весной в Томске

    ​Проект «Мобильные полки» стал победителем грантового конкурса. В ближайшее время в городе появятся баннеры с QR-кодами книг, полные версии которых находятся в электронном хранилище научки, и горожане смогут бесплатно прочитать понравившиеся им издания.
    392
  • 31/05/2017

    Оцифрованная история факультетов-юбиляров ТГУ

    К 100-летию историко-филологического и физико-математического образования Томского госуниверситета Научная библиотека начала работу по оцифровке хранящихся в ее фондах документов, посвященных истории и современности «юбиляров», сообщает пресс-служба вуза.
    835
  • 03/10/2018

    В Научно-технической библиотеке ТПУ теперь доступны около 80 млн онлайн-публикаций и 5 тысяч электронных журналов

    Научно-техническая библиотека Томского политехнического университета выиграла два конкурса национальной подписки на международные и российские базы данных, объявленных Российским фондом фундаментальных исследований.
    655
  • 06/11/2017

    Томские филологи создают онлайн-энциклопедию о словесной культуре Сибири

    ​Ученые филологического факультета ТГУ и сотрудники Научной библиотеки ТГУ создают электронную энциклопедию «Словесная культура Сибири». В ней исследователи планируют собрать литературные, публицистические, научные тексты о сибирском регионе.
    793
  • 28/12/2016

    Электронная библиотека ТГУ вошла в авторитетный каталог архивов открытого доступа

    Электронная библиотека ТГУ вошла в авторитетный международный каталог OpenDOAR, где стала крупнейшим российским научным архивом. Каталог содержит полнотекстовые ресурсы свыше трех тысяч научных организаций мира, доступ к которым является круглосуточным и бесплатным.
    1764