Команда ученых и студентов кафедры теоретических основ информатики ИПМКН Томского государственного университета совместно с компанией «Директ-Медиа» применила принципы машинного обучения к переводу текста литературных произведений в аудиокниги. Эта разработка позволила снизить коэффициент ошибок при прочтении омонимов и расшифровке сокращений. Сейчас работающий алгоритм LUWRAIN Books разместили в свободном доступе, чтобы им мог воспользоваться любой желающий. 

LUWRAIN Books, используя алгоритмы глубокого обучения, преобразует русскоязычный текст, каким он встречается в СМИ и художественной литературе, в устную речь. Эта возможность крайне необходима при издании аудиокниг, созданных синтезаторами речи, и при озвучивании сайтов. Сложность задачи в том, что только при понимании текста возможна корректная обработка сокращений. Например, когда в тексте есть фрагмент «я получил письмо от о. Петра», человек понимает, что сокращение «о.» в данном случае означает «отца», но для компьютера произвести подобную подстановку невозможно без задействования нейронных сетей.  

Михаил Пожидаев 

– При обработке текста мы использовали две нейросети: одна – мелкая, для семантического анализа, нужного для снятия неопределённости сокращений, вторая – глубокая, двунаправленная, для синтаксического анализа текста. Именно вторая определяет, что в предложении «мы положили литературу XIX в. в цифровой ларец» слово «литература» стоит в родительном падеже, поэтому при расшифровке будет произнесено «девятнадцатого», – объясняет доцент кафедры теоретических основ информатики ИПМКН ТГУ Михаил Пожидаев. 

Отдельной проблемой при расшифровке текста выступает наличие двух и более сокращений в одном предложении. «Мы забрались на вершину г. Эверест, а потом вернулись в г. Томск» – пример того, как в тексте «г.» используется в двух вариантах: город и гора. В этом случае нейросеть на основе смыслового анализа окружающих слов корректно определяет, как это озвучивать. 

Работа сервиса  

– Мы давно над этим работали, но задача крайне непростая, и без современных интеллектуальных алгоритмов такую обработку провести невозможно. Форма на сайте https://books.luwrain.org/ может пока работать нестабильно, так как это экспериментальный режим. Но с таким инструментом можно почти целиком исключить использование ручного труда при автоматизации выпуска аудиокниг, который пока необходим в большинстве случаев, – говорит Михаил Пожидаев. 

Над сервисом ученые Томского госуниверситета работают в партнерстве с компанией «Директ-Медиа», которая в прошлом году сделала первый заказ на озвучивание 100 книг. Но производить сто книг за год мало, нужны совершенно другие объёмы. Поэтому процесс и нужно было максимально автоматизировать.  

Как утверждают авторы проекта, работу нужно продолжить. Еще предстоит устранить оставшийся процент ошибок и вывести проект на рынок. При этом принципиальна и социальная составляющая – для незрячих людей сервис и дальше будет работать бесплатно, его эффективность уже опробовали в школе-интернате для детей с нарушениями зрения. 

Источник: www.tsu.ru


Похожие новости

  • 15/12/2020

    Научный дайджест ТГУ: Искусственный интеллект в образовании

    ​​Уважаемые коллеги и студенты! Команда проекта «Научные дайджесты ТГУ: фронтирные исследования и технологии» подготовила для вас дайджест «Искусственный интеллект в образовании». В нем вы найдёте ссылки на самые актуальные научные статьи из международных «топовых» журналов, монографии, книги, тематические порталы, научные СМИ, предстоящие мероприятия с краткими аннотациями к ним.
    604
  • 04/12/2020

    На #EdCrunch Томск обсудят, как научить иностранному языку в эпоху ИИ

    На круглом столе «Платформенные решения для изучения иностранных языков» конференции #EdCrunch Томск Томский госуниверситет представит свой сервис, разработанный в партнерстве с компанией «Английский пациент».
    1296
  • 05/09/2019

    Студенты ТУСУРа разработали программу для писателей

    ​Программный продукт, разработанный студентами Томского госуниверситета систем управления и радиоэлектроники (ТУСУР), поможет русскоязычным литераторам структурировать текст, выстроить хронологию повествования и проследить взаимосвязи персонажей; программу планируется распространять через литературные сайты и паблики, сообщается в свежем номере газеты "Радиоэлектроник".
    588
  • 12/03/2021

    В ТПУ выяснили, какой студенты представляют Россию будущего в сети Instagram

     Ученые Школы базовой инженерной подготовки Томского политехнического университета провели исследование процессов визуального конструирования образа будущего России в социальной сети Instagram. Ключевым маркером для анализа стали хештеги, которые использовали пользователи.
    372
  • 25/01/2018

    Лингвисты научат компьютеры общению с людьми

    ​В Томском политехническом университете впервые состоялась защита выпускных квалификационных работ слушателей программы профессиональной переподготовки «Компьютерная лингвистика». Среди первых выпускников программы — студенты-лингвисты томских вузов, сотрудники ТПУ, опытные программисты.
    1342
  • 06/04/2021

    Приложение для реабилитации после инсульта и корпус спутника представили школьники на конференции в ТПУ

    В Томском политехническом университете завершила работу XXII Всероссийская конференция-конкурс исследовательских работ школьников «Юные исследователи- науке и технике». На ней было представлено 302 доклада по 11 направлениям.
    513
  • 26/08/2021

    Учёные ТГУ записали 5 диалектов тюркских языков с помощью УЗИ-аппарата

    Лингвисты Томского государственного университета впервые записали данные пяти диалектов тюркских языков Сибири. Эту работу учёные провели вместе с жителями сёл Хакасии и Кузбасса, где были в экспедиции.
    429
  • 24/08/2017

    Приложение от международной школы английского языка появилось в Новосибирске

    В июле 2017 года языковая школа для взрослых EF выпустила приложение для смартфонов, которое работает и в режиме офлайн. У новосибирских студентов появилась возможность проходить курс по программе в любом месте и в любое время, даже без доступа к интернету.
    1213
  • 23/03/2021

    Историки ТГУ ускорят исследования средневековых текстов при помощи ИИ

    Историки Томского государственного университета к 2022 году обучат искусственный интеллект анализировать средневековые документы на немецком языке. Это поможет им находить в массивах текстов нужные примеры изменений в значении терминов.
    416
  • 24/12/2020

    Алексей Гоголев: «Мы сумели выполнить все обязательства и не снизить планку»

    И.о. руководителя Исследовательской школы физики высокоэнергетических процессов ТПУ рассказал о достижениях коллектива школы в 2020 году, планах и задачах на следующий год.  2020 год в силу понятных причин стал для нас крайне непростым, но мы достойно выдержали удар, сумев выполнить все обязательства по грантам, программам, не допустить снижения основных индикаторов исследовательской деятельности.
    1094