Посткризисная эпоха вынуждает потребителя рациональнее относиться к трате денег - теперь перед покупкой люди обращаются к отзывам в Интернете.

В связи с этим фирмы уделяют большое внимание комментариям и упоминаниям о себе во Всемирной сети, но просматривать бесконечные массивы информации вручную долго и затратно. Новосибирские исследователи разработали нейросетевой продукт Soroka, который самостоятельно анализирует репутацию человека или организации.

Принцип работы "умного" продукта прост: нужно указать название компании (или имя человека) и список веб-адресов, с которых начнется анализ контента. Система с помощью нейронных сетей ищет все упоминания заданной компании или человека, затем оценивает тональность контекста для каждого из найденных упоминаний. В результате пользователь получает так называемый "коэффициент сороки" - процент положительных, негативных и нейтральных упоминаний. Руководствуясь этими данными, можно понять, насколько хорошо или плохо говорят о компании.

Soroka состоит из двух компонентов: модуля распознавания именованных сущностей (NER, или Named Entity Recognition), который выполняет поиск названия компании или имени человека в тексте веб-сайта, и модуля анализа тональность (Sentiment Analysis), оценивающего эмоциональный заряд текста.

Для решения задачи NER разработчики использовали предварительно обученную нейросеть из программной библиотеки SpaCy (библиотека, в которой размещены последние достижения в области анализа текста на естественном языке). Модуль анализа тональности специалисты сделали самостоятельно, основываясь на дистрибутивной гипотезе. Суть подхода заключается в том, что в качестве признаков слов используются векторы. Каждому слову присваивается свой контекстный вектор, несколько векторов создают векторное пространство, а семантическая близость слов определяется косинусами расстояния между векторами. Например, косинусное расстояние между векторами слов "король" и "королева" маленькое, а между "король" и "плотник" - большое.

Помимо алгоритмов распознавания имени и оценки, нужен материал, на котором нейросеть сможет обучиться - языковой корпус. Исследователи использовали размеченные твиты - набор публикаций в "Твиттере", разделенных на три эмоциональные отметки: нейтральные, положительные или отрицательные. Еще одним "тренажером" для нейросети был языковой корпус, разработанный аспиранткой лаборатории искусственного интеллекта Института систем информатики им. А.П. Ершова СО РАН Юлией Владимировной Рубцовой.

Soroka ориентирована на новостные сайты, поэтому с применением нейронных сетей, обученных на твитах, возникли некоторые проблемы. Новостные тексты и твиты имеют разные жанровые особенности: так, в твитах больше экспрессивной лексики, используются эмодзи (изображения смайликов). Поэтому при обучении новой версии сервиса использован корпус новостных текстов. Создатели при этом перешли от анализа отдельных предложений к анализу целых абзацев, что, по мнению авторов, лучше позволяет уловить тонкую семантику типа сарказма.

"Каждый модуль, который мы делали, оценивали на корпусах текстов с помощью перекрестной проверки. То есть разделяем корпус на три непересекающиеся части и проводим эксперименты. В каждом эксперименте две части используются для обучения, одна для финального тестирования и оценки качества обучения алгоритма, затем фрагменты меняются местами", - объясняет преподаватель кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ Иван Юрьевич Бондаренко.

История машинного обучения началась еще в 1940-х годах, когда двое американских ученых - физиолог Уоррен МакКаллок и логик Уолтер Питтс предложили первую модель нейросети: они хотели создать имитацию нервной системы человека. Современные нейронные сети, как правило, далеки от этой задачи, это математические аппараты, которые заменяют сложные функции с помощью суперпозиции простых. Тем не менее на сегодняшний день нейросетевые алгоритмы являются одними из самых эффективных для решения задач, связанных с обработкой текстов, изображений и звуковых данных.

Мария Вьюн

Похожие новости

  • 20/07/2017

    В НГУ открылась Летняя школа юных программистов

    ​19 июля в НГУ открылась Летняя школа юных программистов имени А.П. Ершова. В течение двух недель 100 школьников будут изучать программирование, физику и биоинформатику. Цель Летней школы - развитие интереса школьников к углубленному изучению информатики.
    1020
  • 19/04/2016

    В Институте систем информатики СО РАН проходит XI Ершовская лекция по информатике

    ​19 апреля Институт систем информатики СО РАН проводит традиционную XI Ершовскую лекцию.В этом году с Ершовской лекцией выступит известный российский специалист по системному программированию д.ф.-м.н.
    1824
  • 13/04/2016

    По итогам форума «Индустрия Информационных Систем»

    ​6 и 7 апреля в МВК "Новосибирск Экспоцентр" состоялся VIII Сибирский форум "Индустрия Информационных Систем" - уникальное мероприятие, которое прошло совместно с выставкой "IT-Сибирь.
    2128
  • 10/05/2018

    Нейросеть новосибирских ученых для анализа растений поможет автоматизировать диагностику рака

    Ученые Сибирского отделения РАН создают нейросеть для универсальной обработки микроскопических снимков - инструмент позволит автоматизировать диагностику онкологии и анализ микроскопических снимков в целом, а также поможет оптимально добывать полезные экстракты из растительного сырья.
    283
  • 11/10/2016

    Федор Мурзин - о мировых тенденции в области IT

    ​Все данные о жителях Земли - в одном гигантском компьютере, нейроинтерфейсы для передачи мыслей, искусственный интеллект, чья мощь намного, выше, чем у человеческого... Все это может стать реальностью уже к середине нашего века.
    1568
  • 18/11/2017

    В НГУ стартовала одна из крупнейших студенческих ИТ-олимпиад

    ​В Новосибирском госуниверситете стартовала XVIII Открытая Всесибирская олимпиада по программированию им. И.В. Поттосина. На очный тур олимпиады, который проходит с 17 по 20 ноября, съехались почти 150 студентов из ведущих вузов России и ближнего зарубежья.
    781
  • 26/05/2017

    Новосибирский ученый разработал агрегатор ресторанов

    ​В рамках программы новосибирского Технопарка по созданию и развитию бизнеса "А: СТАРТ" специалист из Института систем информатики имени А. П. Ершова СО РАН реализовал агрегатор ресторанов.
    638
  • 02/07/2018

    Проект Сибирского суперкомпьютерного центра представили на президиуме РАН

    ​В Москве обсудили развитие суперкомпьютерных цифровых технологий в Российской Федерации. Научный руководитель Сибирского суперкомпьютерного центра (ССКЦ), директор Института вычислительной математики и математической геофизики СО РАН СО РАН член-корреспондент РАН Сергей Игоревич Кабанихин на заседании президиума РАН отметил, что сегодня суперкомпьютеры представляют собой технологическое оружие.
    329
  • 22/06/2017

    Участники «Технопрома» - о развитии и применении искусственного интеллекта

    ​Глубинное обучение (Deep Learning) - область машинного обучения, которая активно развивается последние годы. Конечно, это не тот искусственный интеллект, который представляют себе фантасты, но уже сегодня многие алгоритмы решают задачи биомедицины, машиностроения, обработки естественного языка.
    722
  • 20/03/2017

    Академический час для школьников «Программирование в Академгородке – безграничные возможности»

    ​14 марта лицей № 130 имени академика М. А. Лаврентьева гостеприимно распахнул двери перед участниками очередного Академического часа для школьников.   Александр Гурьевич Марчук, доктор физико-математических наук, профессор Новосибирского государственного университета, директор Института систем информатики им.
    1061