​В Томском государственном университете занимаются созданием библиотеки для обработки омографов — слов, которые совпадают в написании, но различаются в произношении. Над этим работает доцент кафедры теоретических основ информатики Института прикладной математики и компьютерных наук (ИПМКН) Михаил Пожидаев, сообщает пресс-служба вуза.

Создание библиотеки для обработки омографов напрямую связано с компьютерной лингвистикой. Сейчас во время учебного процесса школьники и студенты с нарушениями зрения часто сталкиваются с рядом неточностей в автоматической обработке текстов на русском языке. Те же проблемы встречают и прочие слушатели аудиокниг. Решением этой задачи занимаются специалисты по компьютерной лингвистике, обучая искусственный интеллект понимать, как нужно правильно произносить то или иное слово.

«Давайте посмотрим на проблему так называемых слов-омографов, которые пишутся одинаково, но читаются по-разному из-за различного положения ударения. Человек при прочтении таких слов ставит ударение на основе собственных знаний о языке. С одной стороны, есть ряд заявлений, что проблема решена, но с другой, даже синтезаторы именитых производителей продолжают ошибаться с выбором ударения, не говоря уже о синтезаторах, находящихся в свободном доступе», — поясняет Михаил Пожидаев.​

Изучив проблему, в том числе на собственном опыте (Михаил вследствие болезни полностью лишился зрения), незрячий программист взялся за работу над утилитой анализа русского языка для обработки омографов. Называется она runyms, исходные тексты по мере их развития выкладываются в открытый доступ.

«Идея утилиты построена на автоматизированном анализе большого массива текстов. Когда текстов много, для разных омографов начинает прослеживаться контекст. Например, если взять слово «потом», то всплывают фразы «обливаясь потом» или «как выяснилось потом». В первом случае это существительное, во втором уже наречие. Попадаются и абсолютно гениальные фразы как, например, «обливаясь потом потом», — рассказывает Михаил Пожидаев.

Вручную такие контексты не собрать — в русском языке почти 30 тысяч слов-омографов. Нюанс библиотеки для их обработки в том, что когда контексты собраны, можно провести повторный анализ тех же самых текстов и посмотреть, не прослеживается ли статистическая закономерность использования тех же самых контекстов, но без морфологической неопределенности. Например, для контекста «как выяснилось» быстро начинают попадаться варианты «как выяснилось позже» или «как выяснилось накануне», в которых слова на месте «потом» уже являются если не однозначно наречиями, то точно не существительными. В случае наречия можно применять альтернативный подход поиска контекста без проверяемого слова вообще.

В строгом академическом смысле объект исследования — методика построения контекстов слов и их наложение на произвольные фрагменты для определения степени близости. Поскольку построение контекстов идет с порождением большого количество комбинаций — просто последовательности слов различной длины, последовательности лемм (слов в словарной форме), слов, обладающих определенными морфологическими свойствами, всё это превращается в необъятную вычислительную задачу, для решения которой потребуется весь арсенал кафедры теоретических основ информатики.

«К счастью, у нас есть достаточный набор средств понизить вычислительную сложность. Если научиться решать такую задачу, этим можно пользоваться и для снятия других типов неоднозначности. Например, для определения склонения дат, денежных сумм и так далее. Для работы с морфологией слов очень помог проект aot.ru Алексея Сокирко и его коллег», — отмечает Михаил Пожидаев.

Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг интересов команды в основном входит анализ русского языка. Авторы проекта уверены, что только грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компьютеру. C 2002 года рабочая группа Aot.ru выкладывает свои разработки с лицензией LGPL. Как итог — каждый может бесплатно использовать созданные библиотеки в своих программах, в том числе и в коммерческих приложениях.

Фото: пресс-служба ТГУ.

Похожие новости

  • 27/05/2019

    Научно-технический конкурс «Первый шаг»: программа мероприятий в Томске

    ​29-30 мая в Томске пройдет финал Всероссийского молодежного научно-технического конкурса разработок в области кинопроизводства, телерадиовещания и телекоммуникаций «Первый шаг» среди студентов технических специальностей вузов.
    1111
  • 25/01/2018

    Лингвисты научат компьютеры общению с людьми

    ​В Томском политехническом университете впервые состоялась защита выпускных квалификационных работ слушателей программы профессиональной переподготовки «Компьютерная лингвистика». Среди первых выпускников программы — студенты-лингвисты томских вузов, сотрудники ТПУ, опытные программисты.
    1089
  • 01/02/2019

    «Мобильные полки» от библиотеки ТГУ появятся весной в Томске

    ​Проект «Мобильные полки» стал победителем грантового конкурса. В ближайшее время в городе появятся баннеры с QR-кодами книг, полные версии которых находятся в электронном хранилище научки, и горожане смогут бесплатно прочитать понравившиеся им издания.
    726
  • 17/07/2020

    СО РАН направляет в Арктику большую норильскую экспедицию

    ​​Группа ученых из Российской академии наук всесторонне изучит экологическую среду территории и представит предложения и рекомендации по наилучшим природосберегающим решениям для деятельности промышленных компаний в Арктическом регионе.
    1414
  • 06/09/2017

    ТПУ проведет Школу научной коммуникации «Эффективная научная деятельность: как стать успешным ученым»

    ​Томский политехнический университет 13-15 сентября проведет Школу научной коммуникации «Эффективная научная деятельность: как стать успешным ученым», которая объединит около 200 российских ученых.
    2072
  • 24/08/2017

    Приложение от международной школы английского языка появилось в Новосибирске

    В июле 2017 года языковая школа для взрослых EF выпустила приложение для смартфонов, которое работает и в режиме офлайн. У новосибирских студентов появилась возможность проходить курс по программе в любом месте и в любое время, даже без доступа к интернету.
    1046
  • 03/10/2018

    В Научно-технической библиотеке ТПУ теперь доступны около 80 млн онлайн-публикаций и 5 тысяч электронных журналов

    Научно-техническая библиотека Томского политехнического университета выиграла два конкурса национальной подписки на международные и российские базы данных, объявленных Российским фондом фундаментальных исследований.
    1125
  • 21/05/2019

    В Томске пройдет финал всероссийского научно-технического конкурса «Первый шаг»

    29-30 мая в Томске пройдет финал Всероссийского молодежного научно-технического конкурса разработок в области кинопроизводства, телерадиовещания и телекоммуникаций "Первый шаг" среди студентов технических специальностей вузов, передает ГТРК "Томск".
    986
  • 06/11/2017

    Томские филологи создают онлайн-энциклопедию о словесной культуре Сибири

    ​Ученые филологического факультета ТГУ и сотрудники Научной библиотеки ТГУ создают электронную энциклопедию «Словесная культура Сибири». В ней исследователи планируют собрать литературные, публицистические, научные тексты о сибирском регионе.
    1024
  • 28/12/2016

    Электронная библиотека ТГУ вошла в авторитетный каталог архивов открытого доступа

    Электронная библиотека ТГУ вошла в авторитетный международный каталог OpenDOAR, где стала крупнейшим российским научным архивом. Каталог содержит полнотекстовые ресурсы свыше трех тысяч научных организаций мира, доступ к которым является круглосуточным и бесплатным.
    2216