Посткризисная эпоха вынуждает потребителя рациональнее относиться к трате денег - теперь перед покупкой люди обращаются к отзывам в Интернете.

В связи с этим фирмы уделяют большое внимание комментариям и упоминаниям о себе во Всемирной сети, но просматривать бесконечные массивы информации вручную долго и затратно. Новосибирские исследователи разработали нейросетевой продукт Soroka, который самостоятельно анализирует репутацию человека или организации.

Принцип работы "умного" продукта прост: нужно указать название компании (или имя человека) и список веб-адресов, с которых начнется анализ контента. Система с помощью нейронных сетей ищет все упоминания заданной компании или человека, затем оценивает тональность контекста для каждого из найденных упоминаний. В результате пользователь получает так называемый "коэффициент сороки" - процент положительных, негативных и нейтральных упоминаний. Руководствуясь этими данными, можно понять, насколько хорошо или плохо говорят о компании.

Soroka состоит из двух компонентов: модуля распознавания именованных сущностей (NER, или Named Entity Recognition), который выполняет поиск названия компании или имени человека в тексте веб-сайта, и модуля анализа тональность (Sentiment Analysis), оценивающего эмоциональный заряд текста.

Для решения задачи NER разработчики использовали предварительно обученную нейросеть из программной библиотеки SpaCy (библиотека, в которой размещены последние достижения в области анализа текста на естественном языке). Модуль анализа тональности специалисты сделали самостоятельно, основываясь на дистрибутивной гипотезе. Суть подхода заключается в том, что в качестве признаков слов используются векторы. Каждому слову присваивается свой контекстный вектор, несколько векторов создают векторное пространство, а семантическая близость слов определяется косинусами расстояния между векторами. Например, косинусное расстояние между векторами слов "король" и "королева" маленькое, а между "король" и "плотник" - большое.

Помимо алгоритмов распознавания имени и оценки, нужен материал, на котором нейросеть сможет обучиться - языковой корпус. Исследователи использовали размеченные твиты - набор публикаций в "Твиттере", разделенных на три эмоциональные отметки: нейтральные, положительные или отрицательные. Еще одним "тренажером" для нейросети был языковой корпус, разработанный аспиранткой лаборатории искусственного интеллекта Института систем информатики им. А.П. Ершова СО РАН Юлией Владимировной Рубцовой.

Soroka ориентирована на новостные сайты, поэтому с применением нейронных сетей, обученных на твитах, возникли некоторые проблемы. Новостные тексты и твиты имеют разные жанровые особенности: так, в твитах больше экспрессивной лексики, используются эмодзи (изображения смайликов). Поэтому при обучении новой версии сервиса использован корпус новостных текстов. Создатели при этом перешли от анализа отдельных предложений к анализу целых абзацев, что, по мнению авторов, лучше позволяет уловить тонкую семантику типа сарказма.

"Каждый модуль, который мы делали, оценивали на корпусах текстов с помощью перекрестной проверки. То есть разделяем корпус на три непересекающиеся части и проводим эксперименты. В каждом эксперименте две части используются для обучения, одна для финального тестирования и оценки качества обучения алгоритма, затем фрагменты меняются местами", - объясняет преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ Иван Юрьевич Бондаренко.

История машинного обучения началась еще в 1940-х годах, когда двое американских ученых - физиолог Уоррен МакКаллок и логик Уолтер Питтс предложили первую модель нейросети: они хотели создать имитацию нервной системы человека. Современные нейронные сети, как правило, далеки от этой задачи, это математические аппараты, которые заменяют сложные функции с помощью суперпозиции простых. Тем не менее на сегодняшний день нейросетевые алгоритмы являются одними из самых эффективных для решения задач, связанных с обработкой текстов, изображений и звуковых данных.

Мария Вьюн

Похожие новости

  • 28/11/2019

    Поддержка принятия решений в слабоформализованных областях

    ​В ИСИ СО РАН разработана методология комплексной поддержки разработки интеллектуальных систем поддержки принятия решений (ИСППР). ИСППР – это интерактивные компьютерные системы, позволяющие лицам, принимающим решения, использовать формализованные знания и данные, объективные и субъективные модели для анализа и решения слабоструктурированных проблем.
    155
  • 02/12/2019

    Парадигма программирования

    ​​В издательстве "Лань" увидела свет книга "Парадигма программирования" старшего научного сотрудника ИСИ СО РАН Л.В. Городней. Учебное пособие посвящено проблеме анализа, сравнения и определения парадигм программирования и парадигмальной характеристике языков и систем программирования, знакомит с разнообразием парадигм программирования и подходов к их поддержке в языках и системах программирования.
    258
  • 15/05/2019

    Сибирские ученые придумали, как быстро и просто анализировать форму клеток эпидермиса листьев у растений

    ​Сотрудники ФИЦ «Институт цитологии и генетики СО РАН» совместно с коллегами из Института систем информатики им. А. П. Ершова СО РАН и Новосибирского государственного университета разработали программу LSM-W2, которая позволяет извлекать данные о морфологии поверхности листа из изображений, полученных с применением лазерного сканирующего микроскопа.
    530
  • 11/10/2016

    Федор Мурзин - о мировых тенденции в области IT

    ​Все данные о жителях Земли - в одном гигантском компьютере, нейроинтерфейсы для передачи мыслей, искусственный интеллект, чья мощь намного, выше, чем у человеческого... Все это может стать реальностью уже к середине нашего века.
    2168
  • 22/01/2020

    Академический час для школьников: лекция «Актуальные задачи на стыке нейробиологии, биофизики и компьютерного моделирования»

    ​22 января 2020 года в 15:00 в малом зале Дома ученых СО РАН состоится лекция директора Института систем информатики им. А.П. Ершова СО РАН Андрея Юрьевича Пальянова «Актуальные задачи на стыке нейробиологии, биофизики и компьютерного моделирования».
    136
  • 22/06/2017

    Участники «Технопрома» - о развитии и применении искусственного интеллекта

    ​Глубинное обучение (Deep Learning) - область машинного обучения, которая активно развивается последние годы. Конечно, это не тот искусственный интеллект, который представляют себе фантасты, но уже сегодня многие алгоритмы решают задачи биомедицины, машиностроения, обработки естественного языка.
    1239
  • 20/07/2017

    В НГУ открылась Летняя школа юных программистов

    ​19 июля в НГУ открылась Летняя школа юных программистов имени А.П. Ершова. В течение двух недель 100 школьников будут изучать программирование, физику и биоинформатику. Цель Летней школы - развитие интереса школьников к углубленному изучению информатики.
    1863
  • 19/04/2016

    В Институте систем информатики СО РАН проходит XI Ершовская лекция по информатике

    ​19 апреля Институт систем информатики СО РАН проводит традиционную XI Ершовскую лекцию.В этом году с Ершовской лекцией выступит известный российский специалист по системному программированию д.ф.-м.н.
    2437
  • 15/04/2019

    В новосибирском Академпарке пройдет XIV Ершовская лекция по информатике

    ​Новосибирский региональный общественный фонд информатики и искусства программирования им. академика А.П. Ершова и Институт систем информатики имени А.П. Ершова СО РАН организуют очередную XIV лекцию ежегодного цикла лекций по информатике и программированию памяти основателя сибирской школы программирования академика Андрея Петровича Ершова.
    546
  • 20/03/2017

    Академический час для школьников «Программирование в Академгородке – безграничные возможности»

    ​14 марта лицей № 130 имени академика М. А. Лаврентьева гостеприимно распахнул двери перед участниками очередного Академического часа для школьников.   Александр Гурьевич Марчук, доктор физико-математических наук, профессор Новосибирского государственного университета, директор Института систем информатики им.
    1650