Ученые Томского государственного университета систем управления и радиоэлектроники исследуют малоизученную шепотную речь человека для создания алгоритмов по распознаванию речи человека с высокой точностью.
На кафедре комплексной информационной безопасности электронно-вычислительных систем (КИБЭВС) с помощью созданного здесь уникального математического аппарата проводятся исследования по распознаванию речи человека на уровне параметров речевого сигнала. Их результатом может стать создание новых алгоритмов, принципиально отличающихся от существующих, для корректного и более точного распознавания речи человека.
Как пояснил доцент кафедры КИБЭВС Антон Конев, речевые технологии в ближайшем будущем будут активно развиваться - для создания голосовых ассистентов, а также других новых продуктов в сфере искусственного интеллекта. Одна из главных целей разработчиков во всем мире - добиться полностью автоматического перевода устного текста любого объема в письменный с высокой точностью, без искажений.
"Пока эта цель не достигнута, в том числе из-за подхода, который чаще всего используется в уже работающих человеко-машинных интерфейсах: голосовом поиске, чат-ботах, где распознаваемый максимум - это отдельные словосочетания, например, поисковые запросы или голосовой набор смс-сообщений", - говорит Антон Конев.
Суть этого подхода, по словам доцента ТУСУРа, - что основой распространенных алгоритмов является обучение на большом количестве примеров произнесенных звуков, слов, словосочетаний. При распознавании система вероятностным способом определяет, к какому из заложенных примеров ближе произнесенное. Определение параметров звуков с высокой точностью, свойственной слуховой системе человека, при создании не прорабатывается.
"Поэтому, как только человек начинает произносить не самые часто употребляемые слова, аббревиатуры, редкие имена, сокращения, распознавание ухудшается, и существующие системы ошибаются очень часто, - подчеркивает исследователь. - Кроме того, такие системы не учитывают вариативность окончаний и других особенностей спонтанной устной речи, а не отдельных коротких словосочетаний - особенна высока вариативность в русском языке, где "съедается" большой процент звуков, если мы говорим в привычном быстром темпе".
Поэтому своей задачей ученые кафедры КИБЭВС ТУСУРа называют определение более точных параметров звуков, в том числе с помощью изучения шепотной речи.
Есть классический термин - форманта, максимум звука в спектре, параметры которой нам необходимы, но в звучной речи на формантную структуру накладываются колебания и искажают картину форманты. Именно поэтому мы исследуем шепотную речь, которая отделена от голосового источника и лишена этих искажений.
Исследования, проводимые с использованием уникальной разработки ученых кафедры КИБЭВС ТУСУРа - математического аппарата, учитывающего строение слуховой системы человека, показали, что распознавание ударных звуков шепотной речи на основе общепринятых параметров возможно с надежностью не менее 70 %.
Такой результат позволяет говорить о перспективности исследований для выявления точных параметров звуков, которыми мало занимаются в России и за рубежом, но которые могут послужить основой для принципиально нового подхода в точном распознавании речи - для создания усовершенствованных инструментов в сфере искусственного интеллекта, человеко-машинных интерфейсов, развитие которых становится все более актуальным.
Ученые ТУСУРа изучают шепот, чтобы научить компьютер более точно распознавать человеческую речь