​Сотрудники лаборатории искусственного интеллекта Института систем информатики им. А. П. Ершова СО РАН создали программу, способную с высокой точностью распознавать запрещенное содержание сайтов, даже если оно завуалировано. Программа умеет не только отфильтровывать нейтральную информацию от опасной, но и обосновывать свои выводы.
 
Ученые из ИСИ СО РАН придумали действенный способ обнаружения в интернете информации, связанной с распространением наркотиков. Они объединили нейронные сети с методами экспертов (лингвистов и специалистов по машинному обучению). Дело в том, что нейросети ищут определенный контент по словам: они взвешивают данные и определяют вероятность того, что этот сайт содержит запрещенную информацию. Программа, которую разработали в институте, интегрирует нейросети с моделями, основанными на знаниях экспертов по искусственному интеллекту. Полученный инструмент — плагин на платформе WordPress — проверяет информацию, отфильтровывает нелегальный контент и объясняет, почему счел его таковым. 
 
«Идея проекта в том, что современные методы типа машинного обучения или нейронных сетей плохо справляются с поиском запрещенного контента. Злоумышленники могут использовать сленг при продаже наркотиков. Они называют их совершенно обычными словами, такими как “молоко” или “корова”. Если блокировать эти слова, то будет заблокировано слишком много сайтов. Еще одна трудность — часто сообщения о продаже наркотиков размещаются на сайтах совершенно обычной тематики, например в комментариях к новостям», — поясняет старший научный сотрудник лаборатории искусственного интеллекта ИСИ СО РАН кандидат физико-математических наук Елена Анатольевна Сидорова. 
 
Обработка сайта происходит так: сначала программа анализирует структуру, затем с помощью словаря проводится лингвистический анализ содержания, исходя из чего оценивается, связан ли текст с темой наркотиков. «Одно сообщение на веб-странице может содержать ссылку на другое, и эти цепочки помогают постоянно проверять подозрительную лексику и пополнять базу. Для обновления словаря названий наркотических средств также привлекались эксперты-наркологи, которые знают этот сленг», — рассказывает Елена Сидорова. 
 
Продукт можно поставить на сервер, и он будет сканировать сайты по расписанию. «Это уже работающее и эффективное решение. В то время как методы машинного обучения определяют нелегальное содержание с точностью около 70 %, нам удалось добиться точности выявления в 86 % случаев. При этом почти 90 % нейтральных сайтов наш метод не относит к нежелательным — важно было сделать так, чтобы безопасные сайты не блокировались по ошибке», — отмечает Елена Сидорова.
 
Так как ответственность за размещение незаконного контента несут провайдеры, то в первую очередь программа ориентирована на них, но также ее может применять Роскомнадзор и даже обычные пользователи.

Источники

Искусственный интеллект поможет бороться с информацией о продаже наркотиков в интернете
Наука в Сибири (sbras.info), 24/12/2019
Новосибирские ученые придумали, как бороться с продажей наркотиков в интернете
Om1.ru, 24/12/2019
Сибирские ученые научили искусственный интеллект искать запрещенные сайты
Сибирское агентство новостей (sibnovosti.ru), 24/12/2019
Сибирские ученые разработали программу поиска запрещенной информации в Интернете
Seldon.News (news.myseldon.com), 24/12/2019
Сибирские ученые научили искусственный интеллект искать запрещенные сайты
1k.com.ua, 24/12/2019
Сибирские ученые научили искусственный интеллект искать запрещенные сайты
Seldon.News (news.myseldon.com), 24/12/2019
Новосибирские ученые придумали, как бороться с продажей наркотиков в интернете
Seldon.News (news.myseldon.com), 24/12/2019
ИИ из Сибири отыщет в Сети завуалированную "запрещенку"
Рэнби (rnbee.com.ua), 24/12/2019
ИИ из Сибири отыщет в Сети завуалированную "запрещенку"
РосКомСвобода (roskomsvoboda.org), 24/12/2019
Сибирские ученые разработали программу поиска запрещенной информации в Интернете
Новосибирские новости (nscn.ru), 24/12/2019
Новосибирские ученые придумали, как бороться с продажей наркотиков в интернете
Gorodskoyportal.ru/omsk, 24/12/2019
Сибирские ученые придумали, как бороться с наркотиками в интернете
Сиб.фм (sib.fm), 25/12/2019
Нейросети из Сибири найдут онлайн-магазины наркотиков
Sibnet.ru, 25/12/2019
Сибирские ученые придумали, как бороться с наркотиками в интернете
Gorodskoyportal.ru/novosibirsk, 25/12/2019
Нейросети из Сибири найдут онлайн-магазины наркотиков
Seldon.News (news.myseldon.com), 25/12/2019
Сибирские ученые "натаскали" искусственный интеллект на наркотики
HOLME SPACE (holme.ru), 25/12/2019
Сибирские ученые "натаскали" искусственный интеллект на наркотики
Московский Комсомолец # Новосибирск (novos.mk.ru), 25/12/2019
Сибирские ученые "натаскали" искусственный интеллект на наркотики
Seldon.News (news.myseldon.com), 25/12/2019
ИскИн против наркотиков
Академгородок (academcity.org), 31/12/2019
ИскИн против наркотиков
Seldon.News (news.myseldon.com), 31/12/2019

Похожие новости

  • 26/05/2017

    Новосибирский ученый разработал агрегатор ресторанов

    ​В рамках программы новосибирского Технопарка по созданию и развитию бизнеса "А: СТАРТ" специалист из Института систем информатики имени А. П. Ершова СО РАН реализовал агрегатор ресторанов.
    1023
  • 15/05/2019

    Сибирские ученые придумали, как быстро и просто анализировать форму клеток эпидермиса листьев у растений

    ​Сотрудники ФИЦ «Институт цитологии и генетики СО РАН» совместно с коллегами из Института систем информатики им. А. П. Ершова СО РАН и Новосибирского государственного университета разработали программу LSM-W2, которая позволяет извлекать данные о морфологии поверхности листа из изображений, полученных с применением лазерного сканирующего микроскопа.
    530
  • 22/06/2017

    Участники «Технопрома» - о развитии и применении искусственного интеллекта

    ​Глубинное обучение (Deep Learning) - область машинного обучения, которая активно развивается последние годы. Конечно, это не тот искусственный интеллект, который представляют себе фантасты, но уже сегодня многие алгоритмы решают задачи биомедицины, машиностроения, обработки естественного языка.
    1239
  • 19/11/2018

    Биолог из Новосибирска разработал мобильное приложение для сельского хозяйства

    Труд агрономов и селекционеров иногда содержит очень утомительные операции. Например, периодически им требуется подсчитывать количество зерен в колосьях пшеницы. Не делать этого вручную позволяет мобильное приложение SeedCounter, которое вместе с коллегами создал биолог Михаил Генаев из Новосибирска.
    743
  • 19/09/2019

    Большие данные — большие вызовы

    ​В рамках VII Международного форума технологического развития «Технопром» обсудили возможности использования больших данных для науки, бизнеса и государства. В настоящий момент все они нуждаются в эффективных цифровых инструментах для решения широкого круга задач.
    326
  • 14/05/2018

    Интервью с начальником управления научно-технического развития дирекции нефтепереработки «Газпром нефти» Андреем Клейменовым

    - Андрей Владимирович, расскажите о приоритетных направлениях НИОКР Газпром нефти. Что стоит на повестке дня в первую очередь?- Как известно, у нас есть утвержденные стратегические ориентиры до 2025 г.
    1317
  • 02/12/2019

    Парадигма программирования

    ​​В издательстве "Лань" увидела свет книга "Парадигма программирования" старшего научного сотрудника ИСИ СО РАН Л.В. Городней. Учебное пособие посвящено проблеме анализа, сравнения и определения парадигм программирования и парадигмальной характеристике языков и систем программирования, знакомит с разнообразием парадигм программирования и подходов к их поддержке в языках и системах программирования.
    257
  • 13/04/2016

    В ИЦИГ СО РАН создают базу данных для обработки научной информации

    ​В Федеральном исследовательском центре «Институт цитологии и генетики СО РАН» разрабатывают универсальную систему для поддержки селекционно-генетических экспериментов, пока что тестируя ее на проектах, связанных с изучением пшеницы.
    2034
  • 22/01/2020

    Академический час для школьников: лекция «Актуальные задачи на стыке нейробиологии, биофизики и компьютерного моделирования»

    ​22 января 2020 года в 15:00 в малом зале Дома ученых СО РАН состоится лекция директора Института систем информатики им. А.П. Ершова СО РАН Андрея Юрьевича Пальянова «Актуальные задачи на стыке нейробиологии, биофизики и компьютерного моделирования».
    136
  • 18/04/2019

    «Цифровизация диабетологии»: какие задачи решают «большие данные»

    ​Компьютерная обработка и анализ больших массивов данных (big data) находят все более широкое применение как в исследовательской биологии, так и в клинической медицине. Не является исключением и диабетология.
    451