Посткризисная эпоха вынуждает потребителя рациональнее относиться к трате денег - теперь перед покупкой люди обращаются к отзывам в Интернете.

В связи с этим фирмы уделяют большое внимание комментариям и упоминаниям о себе во Всемирной сети, но просматривать бесконечные массивы информации вручную долго и затратно. Новосибирские исследователи разработали нейросетевой продукт Soroka, который самостоятельно анализирует репутацию человека или организации.

Принцип работы "умного" продукта прост: нужно указать название компании (или имя человека) и список веб-адресов, с которых начнется анализ контента. Система с помощью нейронных сетей ищет все упоминания заданной компании или человека, затем оценивает тональность контекста для каждого из найденных упоминаний. В результате пользователь получает так называемый "коэффициент сороки" - процент положительных, негативных и нейтральных упоминаний. Руководствуясь этими данными, можно понять, насколько хорошо или плохо говорят о компании.

Soroka состоит из двух компонентов: модуля распознавания именованных сущностей (NER, или Named Entity Recognition), который выполняет поиск названия компании или имени человека в тексте веб-сайта, и модуля анализа тональность (Sentiment Analysis), оценивающего эмоциональный заряд текста.

Для решения задачи NER разработчики использовали предварительно обученную нейросеть из программной библиотеки SpaCy (библиотека, в которой размещены последние достижения в области анализа текста на естественном языке). Модуль анализа тональности специалисты сделали самостоятельно, основываясь на дистрибутивной гипотезе. Суть подхода заключается в том, что в качестве признаков слов используются векторы. Каждому слову присваивается свой контекстный вектор, несколько векторов создают векторное пространство, а семантическая близость слов определяется косинусами расстояния между векторами. Например, косинусное расстояние между векторами слов "король" и "королева" маленькое, а между "король" и "плотник" - большое.

Помимо алгоритмов распознавания имени и оценки, нужен материал, на котором нейросеть сможет обучиться - языковой корпус. Исследователи использовали размеченные твиты - набор публикаций в "Твиттере", разделенных на три эмоциональные отметки: нейтральные, положительные или отрицательные. Еще одним "тренажером" для нейросети был языковой корпус, разработанный аспиранткой лаборатории искусственного интеллекта Института систем информатики им. А.П. Ершова СО РАН Юлией Владимировной Рубцовой.

Soroka ориентирована на новостные сайты, поэтому с применением нейронных сетей, обученных на твитах, возникли некоторые проблемы. Новостные тексты и твиты имеют разные жанровые особенности: так, в твитах больше экспрессивной лексики, используются эмодзи (изображения смайликов). Поэтому при обучении новой версии сервиса использован корпус новостных текстов. Создатели при этом перешли от анализа отдельных предложений к анализу целых абзацев, что, по мнению авторов, лучше позволяет уловить тонкую семантику типа сарказма.

"Каждый модуль, который мы делали, оценивали на корпусах текстов с помощью перекрестной проверки. То есть разделяем корпус на три непересекающиеся части и проводим эксперименты. В каждом эксперименте две части используются для обучения, одна для финального тестирования и оценки качества обучения алгоритма, затем фрагменты меняются местами", - объясняет преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ Иван Юрьевич Бондаренко.

История машинного обучения началась еще в 1940-х годах, когда двое американских ученых - физиолог Уоррен МакКаллок и логик Уолтер Питтс предложили первую модель нейросети: они хотели создать имитацию нервной системы человека. Современные нейронные сети, как правило, далеки от этой задачи, это математические аппараты, которые заменяют сложные функции с помощью суперпозиции простых. Тем не менее на сегодняшний день нейросетевые алгоритмы являются одними из самых эффективных для решения задач, связанных с обработкой текстов, изображений и звуковых данных.

Мария Вьюн

Похожие новости

  • 15/05/2019

    Сибирские ученые придумали, как быстро и просто анализировать форму клеток эпидермиса листьев у растений

    ​Сотрудники ФИЦ «Институт цитологии и генетики СО РАН» совместно с коллегами из Института систем информатики им. А. П. Ершова СО РАН и Новосибирского государственного университета разработали программу LSM-W2, которая позволяет извлекать данные о морфологии поверхности листа из изображений, полученных с применением лазерного сканирующего микроскопа.
    272
  • 22/06/2017

    Участники «Технопрома» - о развитии и применении искусственного интеллекта

    ​Глубинное обучение (Deep Learning) - область машинного обучения, которая активно развивается последние годы. Конечно, это не тот искусственный интеллект, который представляют себе фантасты, но уже сегодня многие алгоритмы решают задачи биомедицины, машиностроения, обработки естественного языка.
    990
  • 10/05/2018

    Нейросеть новосибирских ученых для анализа растений поможет автоматизировать диагностику рака

    Ученые Сибирского отделения РАН создают нейросеть для универсальной обработки микроскопических снимков - инструмент позволит автоматизировать диагностику онкологии и анализ микроскопических снимков в целом, а также поможет оптимально добывать полезные экстракты из растительного сырья.
    534
  • 19/04/2016

    В Институте систем информатики СО РАН проходит XI Ершовская лекция по информатике

    ​19 апреля Институт систем информатики СО РАН проводит традиционную XI Ершовскую лекцию.В этом году с Ершовской лекцией выступит известный российский специалист по системному программированию д.ф.-м.н.
    2121
  • 15/04/2019

    В новосибирском Академпарке пройдет XIV Ершовская лекция по информатике

    ​Новосибирский региональный общественный фонд информатики и искусства программирования им. академика А.П. Ершова и Институт систем информатики имени А.П. Ершова СО РАН организуют очередную XIV лекцию ежегодного цикла лекций по информатике и программированию памяти основателя сибирской школы программирования академика Андрея Петровича Ершова.
    257
  • 20/07/2017

    В НГУ открылась Летняя школа юных программистов

    ​19 июля в НГУ открылась Летняя школа юных программистов имени А.П. Ершова. В течение двух недель 100 школьников будут изучать программирование, физику и биоинформатику. Цель Летней школы - развитие интереса школьников к углубленному изучению информатики.
    1490
  • 13/04/2016

    По итогам форума «Индустрия Информационных Систем»

    ​6 и 7 апреля в МВК "Новосибирск Экспоцентр" состоялся VIII Сибирский форум "Индустрия Информационных Систем" - уникальное мероприятие, которое прошло совместно с выставкой "IT-Сибирь.
    2435
  • 18/11/2017

    В НГУ стартовала одна из крупнейших студенческих ИТ-олимпиад

    ​В Новосибирском госуниверситете стартовала XVIII Открытая Всесибирская олимпиада по программированию им. И.В. Поттосина. На очный тур олимпиады, который проходит с 17 по 20 ноября, съехались почти 150 студентов из ведущих вузов России и ближнего зарубежья.
    1219
  • 11/10/2016

    Федор Мурзин - о мировых тенденции в области IT

    ​Все данные о жителях Земли - в одном гигантском компьютере, нейроинтерфейсы для передачи мыслей, искусственный интеллект, чья мощь намного, выше, чем у человеческого... Все это может стать реальностью уже к середине нашего века.
    1922
  • 20/03/2017

    Академический час для школьников «Программирование в Академгородке – безграничные возможности»

    ​14 марта лицей № 130 имени академика М. А. Лаврентьева гостеприимно распахнул двери перед участниками очередного Академического часа для школьников.   Александр Гурьевич Марчук, доктор физико-математических наук, профессор Новосибирского государственного университета, директор Института систем информатики им.
    1356